智快網 - 新科技與新能源行業網絡媒體

          OpenAI新模型性能提升卻頻現“幻覺”,錯誤率為何反增?

             發布時間:2025-04-19 08:03 作者:馮璃月

          近期,OpenAI推出了兩款新型模型——o3與o4-mini,這兩款模型在多個領域展示了卓越的性能,然而,它們卻面臨著一個棘手的問題:幻覺現象愈發嚴重。

          據TechCrunch報道,幻覺問題一直是生成式AI領域難以攻克的一大難關,即便是業內頂尖的模型也難以完全擺脫其困擾。以往,每一代新模型的發布都會帶來幻覺頻率的小幅降低,但o3與o4-mini卻打破了這一規律。

          OpenAI的內部測試結果顯示,作為推理模型的o3與o4-mini,在幻覺問題的出現頻率上不僅超過了前代推理模型o1、o1-mini和o3-mini,甚至高于傳統的“非推理”模型,如GPT-4o。這一現象引發了業內的廣泛關注與討論。

          OpenAI在發布的技術報告中指出,隨著推理模型規模的擴大,幻覺問題反而變得更加嚴重,這一原因尚需進一步的研究。盡管o3與o4-mini在編程、數學等任務上的表現有所提升,但由于模型輸出的答案總量增加,導致準確判斷與錯誤、幻覺現象并存。

          在OpenAI設計的內部基準測試PersonQA中,o3回答問題時出現幻覺的比例高達33%,幾乎是前代推理模型o1和o3-mini的兩倍。而o4-mini的表現更為糟糕,幻覺率高達48%。這一數據無疑為業界敲響了警鐘。

          不僅如此,第三方機構Transluce的測試也證實了這一問題。該非營利AI研究實驗室發現,o3在回答問題時經常會虛構一些“過程操作”。例如,o3曾聲稱在一臺2021款MacBook Pro上“在ChatGPT之外”運行了代碼,并將結果復制進了答案中。然而,實際上o3并不具備執行這種操作的能力。

          面對這一問題,OpenAI發言人Niko Felix表示:“解決幻覺問題一直是我們研究的重點方向。我們將繼續努力提升模型的準確性與可靠性,為用戶提供更加優質的AI服務。”盡管面臨挑戰,但OpenAI并未放棄對完美模型的追求。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          免费精品久久久久久中文字幕| 国产精品福利一区| 久久青草精品一区二区三区| 国产福利电影一区二区三区久久久久成人精品综合 | 精品国产国产综合精品| 日韩精品中文字幕在线观看| 国产精品久久久久久久久齐齐| 精品久久久久久中文字幕无码| 精品国际久久久久999波多野| 99re热这里只有精品18| 四虎成人精品无码| 久久久这里有精品999| 久久精品一区二区三区不卡| 真实国产乱子伦精品视频| 久久国产热这里只有精品| 精品久久久久久国产三级| 亚洲精品网站在线观看不卡无广告 | 2022久久国产精品免费热麻豆| 日韩精品一区二区亚洲AV观看| 久久国产精品萌白酱免费| 亚洲国产精品无码一线岛国| 久久精品免费一区二区三区| 国产精品污WWW在线观看| 国内精品免费在线观看| 国产综合精品女在线观看| 国产午夜福利精品一区二区三区| 最新国产精品拍自在线观看| 99久久精品国产免看国产一区| 中文字幕精品久久久久人妻| 国产乱码精品一区二区三区中文| 麻豆精品久久精品色综合| 国产精品视频一区二区三区无码| 国产精品视频色拍拍| 久久99热精品免费观看动漫| 一区二区三区精品| 久久精品国产亚洲av影院| 亚洲综合一区二区精品久久| 国产精品亚洲四区在线观看| 国产精品综合AV一区二区国产馆| 亚洲精品动漫免费二区| 精品久久中文字幕|