近日,科技界迎來(lái)了一項(xiàng)新的突破,meta公司正式發(fā)布了WebSSL系列模型,這一系列模型基于純圖像數(shù)據(jù)進(jìn)行訓(xùn)練,旨在探索無(wú)語(yǔ)言監(jiān)督的視覺(jué)自監(jiān)督學(xué)習(xí)(SSL)的潛力。此舉標(biāo)志著meta在視覺(jué)學(xué)習(xí)領(lǐng)域邁出了重要一步。
在當(dāng)前的視覺(jué)學(xué)習(xí)領(lǐng)域,以O(shè)penAI的CLIP為代表的對(duì)比語(yǔ)言-圖像模型已成為學(xué)習(xí)視覺(jué)表征的熱門選擇。這類模型在視覺(jué)問(wèn)答(VQA)、文檔理解等多模態(tài)任務(wù)中展現(xiàn)出了卓越的性能。然而,語(yǔ)言依賴成為了一個(gè)限制因素,由于數(shù)據(jù)集獲取的復(fù)雜性和數(shù)據(jù)規(guī)模的限制,語(yǔ)言依賴面臨著諸多挑戰(zhàn)。meta公司正是針對(duì)這一痛點(diǎn),推出了WebSSL系列模型。
WebSSL系列模型涵蓋了DINO和Vision Transformer(ViT)兩種架構(gòu),參數(shù)規(guī)模從3億到70億不等。這些模型在Hugging Face平臺(tái)上發(fā)布,為研究和應(yīng)用提供了極大的便利。值得注意的是,這些模型僅使用了metaCLIP數(shù)據(jù)集(MC-2B)中的20億張圖像子集進(jìn)行訓(xùn)練,完全排除了語(yǔ)言監(jiān)督的影響。
WebSSL模型采用了兩種視覺(jué)自監(jiān)督學(xué)習(xí)范式:聯(lián)合嵌入學(xué)習(xí)(DINOv2)和掩碼建模(MAE)。在訓(xùn)練過(guò)程中,統(tǒng)一使用了224×224分辨率的圖像,并凍結(jié)了視覺(jué)編碼器,以確保結(jié)果差異僅源于預(yù)訓(xùn)練策略。這一設(shè)計(jì)使得WebSSL模型能夠在不受數(shù)據(jù)和模型規(guī)模限制的情況下,深入評(píng)估純視覺(jué)自監(jiān)督學(xué)習(xí)的表現(xiàn)潛力。
模型在五個(gè)容量層級(jí)(ViT-1B至ViT-7B)上進(jìn)行了訓(xùn)練,并基于Cambrian-1基準(zhǔn)測(cè)試進(jìn)行了評(píng)估。該基準(zhǔn)測(cè)試覆蓋了通用視覺(jué)理解、知識(shí)推理、OCR和圖表解讀等16個(gè)VQA任務(wù)。實(shí)驗(yàn)結(jié)果顯示,隨著參數(shù)規(guī)模的增加,WebSSL模型在VQA任務(wù)上的表現(xiàn)接近對(duì)數(shù)線性提升,而CLIP在超過(guò)30億參數(shù)后性能趨于飽和。
在OCR和圖表任務(wù)中,WebSSL模型的表現(xiàn)尤為突出。經(jīng)過(guò)數(shù)據(jù)篩選后,僅用1.3%的富文本圖像進(jìn)行訓(xùn)練,WebSSL模型就在OCRBench和ChartQA任務(wù)中實(shí)現(xiàn)了高達(dá)13.6%的性能提升。這一成果充分展示了WebSSL模型在特定任務(wù)中的卓越性能。
WebSSL模型在高分辨率(518px)微調(diào)方面也表現(xiàn)出色,進(jìn)一步縮小了與SigLIP等高分辨率模型的差距。在文檔任務(wù)中,WebSSL模型更是展現(xiàn)出了卓越的性能。這一成果不僅驗(yàn)證了WebSSL模型在視覺(jué)學(xué)習(xí)領(lǐng)域的潛力,也為未來(lái)的研究提供了重要的參考。
WebSSL模型在無(wú)語(yǔ)言監(jiān)督下仍展現(xiàn)出與預(yù)訓(xùn)練語(yǔ)言模型(如LLaMA-3)的良好對(duì)齊性。這表明大規(guī)模視覺(jué)模型能夠隱式學(xué)習(xí)與文本語(yǔ)義相關(guān)的特征,為視覺(jué)與語(yǔ)言的交叉研究提供了新的思路。
同時(shí),WebSSL模型在傳統(tǒng)基準(zhǔn)測(cè)試(如ImageNet-1k分類、ADE20K分割)上也保持了強(qiáng)勁的表現(xiàn)。部分場(chǎng)景下,WebSSL模型甚至優(yōu)于metaCLIP和DINOv2等現(xiàn)有模型。這一成果進(jìn)一步證明了WebSSL模型在視覺(jué)學(xué)習(xí)領(lǐng)域的領(lǐng)先地位。