智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

          類Sora模型到底懂不懂物理?字節(jié)完成系統(tǒng)性實(shí)驗(yàn),圖靈獎(jiǎng)得主楊立昆贊轉(zhuǎn)!

             發(fā)布時(shí)間:2024-11-07 16:20

          Sora爆火以來,“視頻生成模型到底懂不懂物理規(guī)律”受到熱議,但業(yè)界一直未有研究證實(shí)。近日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)公布最新論文,研究歷時(shí)8個(gè)月,圍繞“視頻生成模型距離世界模型有多遠(yuǎn)”首次在業(yè)界完成系統(tǒng)性實(shí)驗(yàn)并給出明確結(jié)論:視頻生成模型可以記憶訓(xùn)練案例,但暫時(shí)還無法真正理解物理規(guī)律,做到“舉一反三”。

          圖靈獎(jiǎng)得主、meta首席AI科學(xué)家楊立昆點(diǎn)贊并轉(zhuǎn)發(fā)了該研究,表示“結(jié)論不令人意外,但很高興終于有人做了這個(gè)嘗試!”

          自O(shè)penAI發(fā)布Sora模型以來,很多視頻生成模型都會(huì)強(qiáng)調(diào)其生成結(jié)果對物理規(guī)律的遵循。豆包大模型視覺團(tuán)隊(duì)相關(guān)小組,對視頻生成模型究竟能否從視覺數(shù)據(jù)中“發(fā)現(xiàn)”并“理解”物理定律感到好奇,決定深入研究。

          歷時(shí)8個(gè)月,該團(tuán)隊(duì)完成了業(yè)界首個(gè)系統(tǒng)性的實(shí)驗(yàn)研究。團(tuán)隊(duì)通過專門開發(fā)的物理引擎合成了勻速直接運(yùn)動(dòng)、小球碰撞、拋物線運(yùn)動(dòng)等經(jīng)典物理場景的運(yùn)動(dòng)視頻,用于訓(xùn)練基于主流DiT架構(gòu)的視頻生成模型。然后,通過檢驗(yàn)?zāi)P秃罄m(xù)生成的視頻在運(yùn)動(dòng)和碰撞方面是否符合力學(xué)定律,判斷模型是否真正理解了物理規(guī)律,并具有“世界模型”的潛力。

          實(shí)驗(yàn)中設(shè)計(jì)的不同運(yùn)動(dòng)場景

          豆包大模型團(tuán)隊(duì)的實(shí)驗(yàn)發(fā)現(xiàn),即使遵循“Scaling Law”增大模型參數(shù)規(guī)模和數(shù)據(jù)量,模型依然無法抽象出一般物理規(guī)則,做到真正“理解”。

          以最簡單的勻速直線運(yùn)動(dòng)為例,當(dāng)模型學(xué)習(xí)了不同速度下小球保持勻速直線運(yùn)動(dòng)的訓(xùn)練數(shù)據(jù)后,給定初始幾幀,要求模型生成小球在訓(xùn)練集速度區(qū)間內(nèi)勻速直線運(yùn)動(dòng)的視頻,隨著模型參數(shù)和訓(xùn)練數(shù)據(jù)量的增加,生成的視頻逐漸更符合物理規(guī)律。

          然而,當(dāng)要求模型生成未曾見過的速度區(qū)間(即超出訓(xùn)練數(shù)據(jù)范圍)的運(yùn)動(dòng)視頻時(shí),模型突然不再遵循物理規(guī)律,并且無論如何增加模型參數(shù)或訓(xùn)練數(shù)據(jù),生成的結(jié)果都沒有顯著改進(jìn)。這表明,視頻生成模型無法真正理解物理規(guī)律,也無法將這些規(guī)律泛化應(yīng)用到全新的場景中。

          通過進(jìn)一步的實(shí)驗(yàn)分析,研究團(tuán)隊(duì)得出結(jié)論,“生成新視頻時(shí),模型主要依賴對訓(xùn)練案例的記憶和匹配。視頻生成模型就像一個(gè)只會(huì)‘抄作業(yè)’的學(xué)生,一旦遇到從未見過的場景,如不同大小、速度的物體相互作用,就會(huì)‘犯迷糊’,生成結(jié)果與物理規(guī)則不符。”

          不過,研究中也有一個(gè)好消息:如果訓(xùn)練視頻中所有概念和物體都是模型已熟悉的,此時(shí)加大訓(xùn)練視頻的復(fù)雜度,比如組合增加物體間的物理交互,通過加大訓(xùn)練數(shù)據(jù),模型對物理規(guī)律的遵循將越來越好。這一結(jié)果可為視頻生成模型繼續(xù)提升表現(xiàn)提供啟發(fā)。

          據(jù)了解,本研究兩位核心一作都非常年輕,一位是95后,一位是00后,在豆包大模型團(tuán)隊(duì)專注視覺領(lǐng)域的基礎(chǔ)研究工作。作者們一直對世界模型感興趣,在8個(gè)月的探索中,他們閱讀了大量物理學(xué)研究文獻(xiàn),也嘗試從游戲中獲得研發(fā)靈感,歷經(jīng)多次失敗后,最終一步步確定研究思路和實(shí)驗(yàn)方法。

          今年以來,字節(jié)跳動(dòng)在大模型領(lǐng)域不斷加大投入,底層研究、基礎(chǔ)模型、AI應(yīng)用均有亮眼產(chǎn)出。不久前,字節(jié)豆包大模型團(tuán)隊(duì)還發(fā)起了Top Seed人才計(jì)劃,在全球范圍持續(xù)招募大語言模型、視覺、語音、大模型基座等領(lǐng)域的頂尖研究人才,提供充分的創(chuàng)新探索空間。

          研究論文鏈接:https://arxiv.org/pdf/2411.02385

          研究成果網(wǎng)站:https://phyworld.github.io/#combo_gen

           
           
          更多>同類內(nèi)容
          全站最新
          熱門內(nèi)容
          本欄最新
           
          智快科技微信賬號(hào)
          微信群

          微信掃一掃
          加微信拉群
          電動(dòng)汽車群
          科技數(shù)碼群

          97超碰精品成人国产| 亚洲男人的天堂久久精品| 国产精品爱搞视频网站| 日韩免费视频一区二区| 校园春色国产精品| 精品久久久久久久久免费影院 | 亚洲av产在线精品亚洲第一站| 久久精品国产亚洲av麻| 亚洲愉拍99热成人精品热久久| 精品国产乱码久久久久久浪潮| 午夜精品久久影院蜜桃| 日韩免费一区二区三区| 日韩中文字幕精品免费一区| 日韩人妻无码一区二区三区99| 国产在线麻豆精品| 免费在线精品视频| 国产成人精品免费视频大全五级| 日韩成人精品日本亚洲| 国产精品高清久久久久久久 | 久久夜色撩人精品国产| 国产日韩久久久精品影院首页 | 国产精品久久久久久精品三级| 国产精品1024香蕉在线观看 | 亚洲精品乱码久久久久久下载 | 国产精品无码免费播放| 久クク成人精品中文字幕| 久久ww精品w免费人成| 日韩精品久久久肉伦网站 | 中文字幕日韩高清| 日韩人妻激情制服丝袜另类| 日韩精品在线播放| 国产日韩精品中文字无码| 日韩精品少妇无码受不了| 日韩人妻无码精品专区| 日韩精品亚洲专区在线影视| 日韩视频在线观看| 日韩一区二区三区在线精品| 国产成人精品久久亚洲| 成人精品视频99在线观看免费| 国产999精品2卡3卡4卡| 国产成人久久精品一区二区三区|