亚洲最大中文字幕,91视频综合,国产免费高清

Meta開源WebSSL模型，視覺(jué)學(xué)習(xí)能否真正擺脫語(yǔ)言束縛？

發(fā)布時(shí)間：2025-04-25 12:08 來(lái)源：ITBEAR 作者：趙云飛

近日，科技界迎來(lái)了一項(xiàng)新的突破，meta公司正式發(fā)布了WebSSL系列模型，這一系列模型基于純圖像數(shù)據(jù)進(jìn)行訓(xùn)練，旨在探索無(wú)語(yǔ)言監(jiān)督的視覺(jué)自監(jiān)督學(xué)習(xí)（SSL）的潛力。此舉標(biāo)志著meta在視覺(jué)學(xué)習(xí)領(lǐng)域邁出了重要一步。

在當(dāng)前的視覺(jué)學(xué)習(xí)領(lǐng)域，以O(shè)penAI的CLIP為代表的對(duì)比語(yǔ)言-圖像模型已成為學(xué)習(xí)視覺(jué)表征的熱門選擇。這類模型在視覺(jué)問(wèn)答（VQA）、文檔理解等多模態(tài)任務(wù)中展現(xiàn)出了卓越的性能。然而，語(yǔ)言依賴成為了一個(gè)限制因素，由于數(shù)據(jù)集獲取的復(fù)雜性和數(shù)據(jù)規(guī)模的限制，語(yǔ)言依賴面臨著諸多挑戰(zhàn)。meta公司正是針對(duì)這一痛點(diǎn)，推出了WebSSL系列模型。

WebSSL系列模型涵蓋了DINO和Vision Transformer（ViT）兩種架構(gòu)，參數(shù)規(guī)模從3億到70億不等。這些模型在Hugging Face平臺(tái)上發(fā)布，為研究和應(yīng)用提供了極大的便利。值得注意的是，這些模型僅使用了metaCLIP數(shù)據(jù)集（MC-2B）中的20億張圖像子集進(jìn)行訓(xùn)練，完全排除了語(yǔ)言監(jiān)督的影響。

WebSSL模型采用了兩種視覺(jué)自監(jiān)督學(xué)習(xí)范式：聯(lián)合嵌入學(xué)習(xí)（DINOv2）和掩碼建模（MAE）。在訓(xùn)練過(guò)程中，統(tǒng)一使用了224×224分辨率的圖像，并凍結(jié)了視覺(jué)編碼器，以確保結(jié)果差異僅源于預(yù)訓(xùn)練策略。這一設(shè)計(jì)使得WebSSL模型能夠在不受數(shù)據(jù)和模型規(guī)模限制的情況下，深入評(píng)估純視覺(jué)自監(jiān)督學(xué)習(xí)的表現(xiàn)潛力。

模型在五個(gè)容量層級(jí)（ViT-1B至ViT-7B）上進(jìn)行了訓(xùn)練，并基于Cambrian-1基準(zhǔn)測(cè)試進(jìn)行了評(píng)估。該基準(zhǔn)測(cè)試覆蓋了通用視覺(jué)理解、知識(shí)推理、OCR和圖表解讀等16個(gè)VQA任務(wù)。實(shí)驗(yàn)結(jié)果顯示，隨著參數(shù)規(guī)模的增加，WebSSL模型在VQA任務(wù)上的表現(xiàn)接近對(duì)數(shù)線性提升，而CLIP在超過(guò)30億參數(shù)后性能趨于飽和。

在OCR和圖表任務(wù)中，WebSSL模型的表現(xiàn)尤為突出。經(jīng)過(guò)數(shù)據(jù)篩選后，僅用1.3%的富文本圖像進(jìn)行訓(xùn)練，WebSSL模型就在OCRBench和ChartQA任務(wù)中實(shí)現(xiàn)了高達(dá)13.6%的性能提升。這一成果充分展示了WebSSL模型在特定任務(wù)中的卓越性能。

WebSSL模型在高分辨率（518px）微調(diào)方面也表現(xiàn)出色，進(jìn)一步縮小了與SigLIP等高分辨率模型的差距。在文檔任務(wù)中，WebSSL模型更是展現(xiàn)出了卓越的性能。這一成果不僅驗(yàn)證了WebSSL模型在視覺(jué)學(xué)習(xí)領(lǐng)域的潛力，也為未來(lái)的研究提供了重要的參考。

WebSSL模型在無(wú)語(yǔ)言監(jiān)督下仍展現(xiàn)出與預(yù)訓(xùn)練語(yǔ)言模型（如LLaMA-3）的良好對(duì)齊性。這表明大規(guī)模視覺(jué)模型能夠隱式學(xué)習(xí)與文本語(yǔ)義相關(guān)的特征，為視覺(jué)與語(yǔ)言的交叉研究提供了新的思路。

同時(shí)，WebSSL模型在傳統(tǒng)基準(zhǔn)測(cè)試（如ImageNet-1k分類、ADE20K分割）上也保持了強(qiáng)勁的表現(xiàn)。部分場(chǎng)景下，WebSSL模型甚至優(yōu)于metaCLIP和DINOv2等現(xiàn)有模型。這一成果進(jìn)一步證明了WebSSL模型在視覺(jué)學(xué)習(xí)領(lǐng)域的領(lǐng)先地位。

更多>同類內(nèi)容