智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

          Meta開源WebSSL模型,視覺(jué)學(xué)習(xí)能否真正擺脫語(yǔ)言束縛?

             發(fā)布時(shí)間:2025-04-25 12:08 作者:趙云飛

          近日,科技界迎來(lái)了一項(xiàng)新的突破,meta公司正式發(fā)布了WebSSL系列模型,這一系列模型基于純圖像數(shù)據(jù)進(jìn)行訓(xùn)練,旨在探索無(wú)語(yǔ)言監(jiān)督的視覺(jué)自監(jiān)督學(xué)習(xí)(SSL)的潛力。此舉標(biāo)志著meta在視覺(jué)學(xué)習(xí)領(lǐng)域邁出了重要一步。

          在當(dāng)前的視覺(jué)學(xué)習(xí)領(lǐng)域,以O(shè)penAI的CLIP為代表的對(duì)比語(yǔ)言-圖像模型已成為學(xué)習(xí)視覺(jué)表征的熱門選擇。這類模型在視覺(jué)問(wèn)答(VQA)、文檔理解等多模態(tài)任務(wù)中展現(xiàn)出了卓越的性能。然而,語(yǔ)言依賴成為了一個(gè)限制因素,由于數(shù)據(jù)集獲取的復(fù)雜性和數(shù)據(jù)規(guī)模的限制,語(yǔ)言依賴面臨著諸多挑戰(zhàn)。meta公司正是針對(duì)這一痛點(diǎn),推出了WebSSL系列模型。

          WebSSL系列模型涵蓋了DINO和Vision Transformer(ViT)兩種架構(gòu),參數(shù)規(guī)模從3億到70億不等。這些模型在Hugging Face平臺(tái)上發(fā)布,為研究和應(yīng)用提供了極大的便利。值得注意的是,這些模型僅使用了metaCLIP數(shù)據(jù)集(MC-2B)中的20億張圖像子集進(jìn)行訓(xùn)練,完全排除了語(yǔ)言監(jiān)督的影響。

          WebSSL模型采用了兩種視覺(jué)自監(jiān)督學(xué)習(xí)范式:聯(lián)合嵌入學(xué)習(xí)(DINOv2)和掩碼建模(MAE)。在訓(xùn)練過(guò)程中,統(tǒng)一使用了224×224分辨率的圖像,并凍結(jié)了視覺(jué)編碼器,以確保結(jié)果差異僅源于預(yù)訓(xùn)練策略。這一設(shè)計(jì)使得WebSSL模型能夠在不受數(shù)據(jù)和模型規(guī)模限制的情況下,深入評(píng)估純視覺(jué)自監(jiān)督學(xué)習(xí)的表現(xiàn)潛力。

          模型在五個(gè)容量層級(jí)(ViT-1B至ViT-7B)上進(jìn)行了訓(xùn)練,并基于Cambrian-1基準(zhǔn)測(cè)試進(jìn)行了評(píng)估。該基準(zhǔn)測(cè)試覆蓋了通用視覺(jué)理解、知識(shí)推理、OCR和圖表解讀等16個(gè)VQA任務(wù)。實(shí)驗(yàn)結(jié)果顯示,隨著參數(shù)規(guī)模的增加,WebSSL模型在VQA任務(wù)上的表現(xiàn)接近對(duì)數(shù)線性提升,而CLIP在超過(guò)30億參數(shù)后性能趨于飽和。

          在OCR和圖表任務(wù)中,WebSSL模型的表現(xiàn)尤為突出。經(jīng)過(guò)數(shù)據(jù)篩選后,僅用1.3%的富文本圖像進(jìn)行訓(xùn)練,WebSSL模型就在OCRBench和ChartQA任務(wù)中實(shí)現(xiàn)了高達(dá)13.6%的性能提升。這一成果充分展示了WebSSL模型在特定任務(wù)中的卓越性能。

          WebSSL模型在高分辨率(518px)微調(diào)方面也表現(xiàn)出色,進(jìn)一步縮小了與SigLIP等高分辨率模型的差距。在文檔任務(wù)中,WebSSL模型更是展現(xiàn)出了卓越的性能。這一成果不僅驗(yàn)證了WebSSL模型在視覺(jué)學(xué)習(xí)領(lǐng)域的潛力,也為未來(lái)的研究提供了重要的參考。

          WebSSL模型在無(wú)語(yǔ)言監(jiān)督下仍展現(xiàn)出與預(yù)訓(xùn)練語(yǔ)言模型(如LLaMA-3)的良好對(duì)齊性。這表明大規(guī)模視覺(jué)模型能夠隱式學(xué)習(xí)與文本語(yǔ)義相關(guān)的特征,為視覺(jué)與語(yǔ)言的交叉研究提供了新的思路。

          同時(shí),WebSSL模型在傳統(tǒng)基準(zhǔn)測(cè)試(如ImageNet-1k分類、ADE20K分割)上也保持了強(qiáng)勁的表現(xiàn)。部分場(chǎng)景下,WebSSL模型甚至優(yōu)于metaCLIP和DINOv2等現(xiàn)有模型。這一成果進(jìn)一步證明了WebSSL模型在視覺(jué)學(xué)習(xí)領(lǐng)域的領(lǐng)先地位。

           
           
          更多>同類內(nèi)容
          全站最新
          熱門內(nèi)容
          本欄最新
           
          智快科技微信賬號(hào)
          微信群

          微信掃一掃
          加微信拉群
          電動(dòng)汽車群
          科技數(shù)碼群

          国产精品亚洲视频| 热综合一本伊人久久精品| 一本色道久久综合亚洲精品| 欧美精品久久久久a片一二三区| 亚洲电影日韩精品| 亚洲av日韩av不卡在线观看| 在线综合亚洲中文精品| 久久久久夜夜夜精品国产| 久久久久国产成人精品亚洲午夜| 日韩一区二区免费视频| 热99re久久精品精品免费| 日本亚洲精品色婷婷在线影院| 久久99热精品免费观看动漫| 香港aa三级久久三级老师2021国产三级精品三级在 | 精品国产亚洲第一区二区三区| 亚洲αv在线精品糸列| 精品九九久久国内精品| 久久久久人妻一区精品果冻| 伊人精品久久久久7777| 七次郎在线视频精品视频| 久久久无码精品亚洲日韩按摩| 日韩一区二区三区免费播放| 国产揄拍国内精品对白| 国产精品jizz在线观看网站| 国产精品社区在线观看| 国产精品一区二区综合| 国产精品亚洲精品爽爽| 免费a级毛片18以上观看精品 | 亚洲αv在线精品糸列| 久久精品国产99国产精2020丨| 久久久久亚洲精品无码系列| 久久国产精品免费专区| 亚洲国产精品久久久久网站| 欧洲成人午夜精品无码区久久| 成人无码精品一区二区三区| 国产精品国产三级国产AV麻豆| 久久水蜜桃亚洲AV无码精品| 欧美精品VIDEOSEX性欧美| 精品国产香蕉伊思人在线又爽又黄| 精品国产一区二区三区久久影院| 精品免费国产一区二区|