智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡媒體

          智源發(fā)布Emu3:原生多模態(tài)世界模型,能否一統(tǒng)圖像文本視頻?

             發(fā)布時間:2024-10-22 07:21 作者:趙云飛

          智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3,該模型在文本、圖像和視頻三種模態(tài)數(shù)據(jù)的理解和生成上展現(xiàn)出卓越能力。其獨特之處在于,僅需基于下一個token預測,無需依賴擴散模型或組合方法,便能實現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一處理。

          在圖像生成任務中,Emu3的表現(xiàn)優(yōu)于SD-1.5與SDXL模型,獲得了人類偏好評測的高度認可。同時,在視覺語言理解任務中,Emu3也展現(xiàn)出了強大的實力,其對于12項基準測試的平均得分超越了LlaVA-1.6。在視頻生成任務中,Emu3同樣表現(xiàn)出色,VBench基準測試得分高于OpenSora 1.2。

          Emu3配備了一個強大的視覺tokenizer,能夠?qū)⒁曨l和圖像轉(zhuǎn)換為離散token,這些token可以與文本tokenizer輸出的離散token一同送入模型中。這一特性為Any-to-Any任務提供了更加統(tǒng)一的研究范式。

          Emu3的研究結(jié)果充分證明了下一個token預測作為多模態(tài)模型范式的強大潛力,它不僅能實現(xiàn)超越語言本身的大規(guī)模多模態(tài)學習,還能在多模態(tài)任務中取得先進性能。目前,Emu3已開源關鍵技術和模型,為相關研究提供了有力支持。

           
           
          更多>同類內(nèi)容
          全站最新
          熱門內(nèi)容
          本欄最新
           
          智快科技微信賬號
          ITBear微信賬號

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數(shù)碼群

          国产精品jlzz视频| 久久水蜜桃亚洲AV无码精品| 日本精品VIDEOSSE×少妇| 国产日韩精品一区二区三区在线| 亚洲精品国产精品| 精品国产午夜理论片不卡| 99re在线精品视频| 久久精品视频一区二区三区| 中文精品久久久久人妻不卡| 精品一区二区无码AV| selao久久国产精品| 日韩午夜免费视频| 亚洲av日韩综合一区二区三区| 国产91精品久久久久999| 国产精品国产三级国产av剧情| 成人区人妻精品一区二区三区| 欧美日韩精品一区二区在线观看| 午夜精品久久久久久影视riav| 国产69精品久久久久777| 精品一区精品二区制服| 88国产精品视频一区二区三区| 99久在线精品99re6视频| 亚洲av日韩av天堂影片精品| 国产精品免费AV片在线观看| 久久精品视频免费| 久草视频这里只有精品| 亚洲AV无码国产精品色午友在线 | 岛国精品一区免费视频在线观看| 国产精品极品美女自在线观看免费| yy6080久久亚洲精品| 亚洲A∨午夜成人片精品网站 | 性欧洲精品videos| 日韩人妻无码精品一专区| 亚洲精品综合一二三区在线 | 亚洲欧洲国产日韩精品| 日韩AV无码精品人妻系列| 日韩夜夜高潮夜夜爽无码| 亚洲AV成人精品日韩一区18p| 国产精品va久久久久久久| 精品久久久久久久久久中文字幕 | 亚洲欧美日韩中文无线码 |