近日,meta公司高層親自出面,對圍繞其最新AI模型的一則不實傳聞進行了澄清。傳聞聲稱,meta在推出Llama 4 Maverick和Llama 4 Scout模型時,采取了不當手段,即在基準測試的“測試集”上進行了額外訓練,以提升模型測試表現(xiàn),并隱瞞了模型的不足。
meta公司生成式人工智能部門的副總裁艾哈邁德·阿爾·達赫勒,在社交平臺X上發(fā)表聲明,堅決否認了這一說法,稱其為“毫無根據(jù)的謠言”。
在AI領(lǐng)域,測試集是專門用于評估模型訓練后性能的數(shù)據(jù)集。若模型在測試集上進行訓練,將會人為地提高基準測試分數(shù),導(dǎo)致模型的實際能力被夸大。
傳聞的起因,部分源于Maverick和Scout在某些任務(wù)上的不盡如人意,以及meta選擇在基準測試平臺LM Arena上使用未發(fā)布的實驗版本Maverick以獲得更好成績的決定。研究人員發(fā)現(xiàn),公開下載的Maverick版本與LM Arena上的版本在行為上存在顯著差異,這進一步加劇了傳聞的流傳。
針對這一情況,阿爾·達赫勒承認,部分用戶在通過不同云服務(wù)提供商使用Maverick和Scout模型時,確實遇到了“質(zhì)量差異”的問題。他解釋說:“我們急于將模型發(fā)布出去,因此預(yù)計需要幾天時間才能確保所有公開版本都調(diào)整到位。目前,我們正在積極進行錯誤修復(fù),并與合作伙伴緊密協(xié)作。”
阿爾·達赫勒進一步強調(diào),meta始終致力于提供高質(zhì)量的AI模型,對于此次出現(xiàn)的誤解和不便,公司深感歉意,并將繼續(xù)努力提升用戶體驗。