智快網 - 新科技與新能源行業網絡媒體

          AI挑戰《超級馬力歐兄弟》,Claude系列領先,推理模型為何落敗?

             發布時間:2025-03-04 16:03 作者:顧青青

          加利福尼亞大學圣地亞哥分校的Hao人工智能實驗室最近進行了一項別開生面的研究,他們將AI技術引入了經典游戲《超級馬力歐兄弟》中,以此作為測試AI性能的獨特平臺。研究結果顯示,在這次測試中,Anthropic公司的Claude 3.7版本AI展現出了卓越的能力,緊隨其后的是Claude 3.5版本。相比之下,谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o則未能達到預期表現。

          值得注意的是,這次實驗所用的并非1985年原版《超級馬力歐兄弟》,而是在一個模擬器中運行的游戲版本。Hao人工智能實驗室研發的GamingAgent框架作為橋梁,連接了AI與游戲,使AI能夠操控馬力歐。GamingAgent不僅向AI發出如“避開附近障礙物或敵人”等基本指令,還提供了游戲內實時截圖。AI則通過生成Python代碼來指揮馬力歐的行動。

          據實驗室介紹,這種游戲環境對AI模型提出了高要求,迫使它們學習如何規劃復雜的操作并制定有效的游戲策略。一個有趣的發現是,像OpenAI的o1這樣的推理模型,雖然在多數基準測試中表現出色,但在此次實驗中卻不如“非推理”模型。研究人員指出,推理模型在實時游戲中往往因決策時間過長而表現不佳。在《超級馬力歐兄弟》這樣的游戲中,時機至關重要,一秒鐘的延誤可能導致完全不同的結果。

          游戲作為衡量AI性能的工具已有數十年歷史,但一些專家對此提出了質疑。他們認為,與現實世界相比,游戲環境相對抽象且簡單,為AI訓練提供了理論上無限的數據。這種局限性可能使得游戲基準測試結果無法全面反映AI技術的真實水平。

          近期,一些引人注目的游戲基準測試結果引發了廣泛的討論,甚至引發了OpenAI研究科學家安德烈?卡帕西的“評估危機”言論。他在一篇帖子中表示,面對眾多AI指標,他感到困惑,不知道應該關注哪些。他總結道,目前難以準確評估這些AI模型的真實能力。

          盡管存在這些爭議和挑戰,但觀看AI玩《超級馬力歐兄弟》仍然是一種有趣的體驗。這一研究不僅展示了AI技術的潛力,也引發了人們對AI性能評估和未來發展的深入思考。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          人妻熟妇乱又伦精品视频| 99在线热播精品免费99热| 欧亚精品一区三区免费| 精品人妻中文av一区二区三区| 国产精品无码无片在线观看| 久久久这里有精品中文字幕| 亚洲欧洲自拍拍偷精品 美利坚| 日韩亚洲不卡在线视频中文字幕在线观看 | 蜜芽亚洲av无码精品色午夜| 精品国产一区二区三区免费| 香蕉在线精品视频在线观看6| 亚洲国产精品成人AV无码久久综合影院 | 国产精品成人亚洲| 孩交精品xxxx视频视频| 中文字幕无码精品亚洲资源网久久| 日韩精品一区二区三区老鸭窝 | 国产日韩久久免费影院| 四虎影视精品永久免费| 国产精品林美惠子在线播放| 思思91精品国产综合在线| 日韩精品视频免费观看| 在线亚洲精品视频| 国产精品美女久久久久久久 | 亚洲精品美女久久久久99| 久久久久九国产精品| 黑人无码精品又粗又大又长| 国产伦精品一区二区三区视频金莲| 国产精品美女久久久久av爽| 精品日本一区二区三区在线观看| 国产三级精品三级在线观看| 精品久久久久久无码国产| 国产日韩久久久精品影院首页 | 亚洲av永久无码精品国产精品| 青草青草久热精品视频在线网站 | 97久久国产亚洲精品超碰热| 国产成人精品免费视频网页大全 | 国产精品66在线观看| 国产三级精品三级男人的天堂| 免费国产精品视频| 日韩人妻无码中文字幕视频 | 99精品中文字幕|