智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

          AI新考驗!ARC-AGI-2測試來襲,AI模型成績慘淡遠不及人類

             發(fā)布時間:2025-03-25 16:12 作者:顧雨柔

          近期,由知名人工智能專家弗朗索瓦·肖萊攜手創(chuàng)立的非營利組織Arc Prize基金會,在其官方博客上揭曉了一項名為ARC-AGI-2的全新測試。該測試旨在深入評估當前領(lǐng)先的人工智能模型的通用智能水平,其難度系數(shù)極高,令眾多AI模型望塵莫及。

          根據(jù)Arc Prize排行榜的數(shù)據(jù)揭示,那些在推理領(lǐng)域表現(xiàn)突出的AI模型,例如OpenAI的o1-pro和DeepSeek的R1,在ARC-AGI-2測試中的得分僅僅徘徊在1%至1.3%之間。即便是GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等強大的非推理型模型,其得分也僅維持在1%左右的低水平。

          ARC-AGI測試由一系列復雜謎題構(gòu)成,要求AI從一組色彩斑斕的方塊中辨識出隱藏的視覺規(guī)律,并據(jù)此生成正確的“答案網(wǎng)格”。這些問題設(shè)計精巧,旨在考驗AI面對全新問題的應變能力。為了設(shè)定人類基線,Arc Prize基金會邀請了超過400名參與者參與ARC-AGI-2測試。結(jié)果顯示,這些參與者組成的“團隊”平均正確解答了測試中60%的問題,這一成績遠超所有AI模型的表現(xiàn)。

          肖萊在X平臺上強調(diào),相較于先前的ARC-AGI-1測試,ARC-AGI-2更能精準反映AI模型的實際智能水平。Arc Prize基金會的測試旨在評估AI系統(tǒng)能否在脫離訓練數(shù)據(jù)的情況下高效習得新技能。

          肖萊指出,與ARC-AGI-1相比,新的測試版本有效防止了AI模型依賴“蠻力”——即龐大的計算能力——來尋找答案。他承認,這是ARC-AGI-1的一個主要弊端。為了彌補這一不足,ARC-AGI-2引入了“效率”這一新指標,并要求模型實時解讀模式,而非依賴記憶。

          Arc Prize基金會聯(lián)合創(chuàng)始人格雷格·卡姆拉德在其博客文章中寫道:“智能不僅僅在于解決問題或獲取高分的能力,這些能力的獲取效率和部署方式同樣至關(guān)重要。我們提出的核心問題不僅限于‘AI能否習得完成任務所需的技能?’,還包括‘以何種效率和成本?’”

          ARC-AGI-1在五年內(nèi)無人能敵,直到2024年12月,OpenAI發(fā)布了其先進的推理模型o3,該模型超越了所有其他AI模型,并在評估中達到了人類水平的表現(xiàn)。然而,當時便指出,o3在ARC-AGI-1上的卓越表現(xiàn)是以高昂的成本為代價的。在ARC-AGI-2測試中,即便使用價值200美元的計算資源,OpenAI的o3模型(低配版)的得分也僅為4%。

          ARC-AGI-2的推出恰逢其時,科技行業(yè)正迫切呼吁建立新的、尚未飽和的基準來評估AI的進展。Hugging Face聯(lián)合創(chuàng)始人托馬斯·沃爾夫在最近接受采訪時指出,AI行業(yè)缺乏足夠的測試來衡量通用人工智能的關(guān)鍵特質(zhì),如創(chuàng)造力。

          Arc Prize基金會還宣布了2025年Arc Prize競賽,向開發(fā)者發(fā)起挑戰(zhàn),要求在ARC-AGI-2測試中達到85%的準確率,同時每項任務的成本不超過0.42美元(約合3元人民幣)。

           
           
          更多>同類內(nèi)容
          全站最新
          熱門內(nèi)容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數(shù)碼群

          精品人妻AV一区二区三区| 日韩精品无码一区二区三区AV| 日韩精品福利片午夜免费观着| 人妻少妇精品中文字幕AV| 国产色无码精品视频免费| 亚洲国产精品日韩专区AV| 日韩大片在线永久免费观看网站| 国产精品无码一区二区在线观| 精品卡一卡二卡乱码高清| 久久精品国产亚洲AV高清热| 日韩一级精品视频在线观看 | 亚洲性色AV日韩在线观看| 国产精品免费电影| 精品久久久久久亚洲中文字幕| 亚洲av纯肉无码精品动漫| 在线欧美精品一区二区三区| 孩交videos精品乱子豆奶视频| 亚洲AV无码乱码麻豆精品国产| 中文字幕一区二区精品区| 精品无码人妻夜人多侵犯18 | 99精品国产在热久久婷婷| 久久精品成人免费观看| 国产成人久久精品一区二区三区| 97久久国产露脸精品国产| 国产麻豆9l精品三级站| 国产麻豆9l精品三级站| 国内精品人妻无码久久久影院 | 国产成人精品久久一区二区三区av | 无码aⅴ精品一区二区三区| 亚洲国产精品久久久久秋霞小| 色综合久久夜色精品国产| 2020精品极品国产色在线观看| AV无码精品一区二区三区| 色综合久久综精品| 国产精品久久久久久五月尺| 99re最新在线精品| 国产精品国产三级国产AV麻豆 | 日韩a视频在线观看| 一级做a爰黑人又硬又粗免费看51社区国产精品视| 欧美日韩一区二区成人午夜电影| 偷拍精品视频一区二区三区|