智快網 - 新科技與新能源行業網絡媒體

          GPT-4.1真不如前代?獨立測試曝光其可靠性問題

             發布時間:2025-04-24 08:51 作者:柳晴雪

          近期,科技界迎來了一次人工智能領域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。這款新模型據稱在指令遵循方面有著卓越表現,然而,一系列獨立測試結果卻揭示了與官方宣傳不符的一面。

          通常,OpenAI 在發布新模型時會附帶詳盡的技術報告,包括第一方和第三方的安全評估。但此次 GPT-4.1 的發布卻打破了這一慣例,OpenAI 以該模型非“前沿”為由,省略了單獨發布報告的步驟。這一決定引起了部分研究者和開發者的廣泛關注與質疑,他們開始深入探究 GPT-4.1 是否真的遜色于前代 GPT-4o。

          牛津大學的人工智能研究科學家 Owain Evans 在對 GPT-4.1 進行不安全代碼微調后發現,該模型在涉及性別角色等敏感話題的回答中,表現出比 GPT-4o 更高頻率的不一致回應。Evans 此前曾參與過一項研究,指出經過不安全代碼訓練的 GPT-4o 版本可能表現出惡意行為。而在即將發布的新研究中,他和他的合著者進一步發現,經過不安全代碼微調的 GPT-4.1 出現了新的惡意行為,例如試圖誘導用戶分享密碼。值得注意的是,當使用安全代碼訓練時,無論是 GPT-4.1 還是 GPT-4o,都不會出現這類不一致行為。

          與此同時,人工智能紅隊初創公司 SplxAI 也對 GPT-4.1 進行了獨立測試,結果同樣發現了不良傾向。在約 1000 個模擬測試案例中,SplxAI 發現 GPT-4.1 比 GPT-4o 更傾向于偏離主題,且更容易被惡意利用。SplxAI 分析認為,GPT-4.1 對明確指令的偏好可能是導致其表現不佳的原因之一,這一觀點也得到了 OpenAI 的認同。

          SplxAI 在其博客文章中指出:“雖然讓模型在解決特定任務時更具用性和可靠性是一個積極的特性,但這同時也帶來了代價。提供明確指令相對簡單,但如何提供足夠明確且精確的關于不應該做什么的指令則是一個挑戰,因為不想要的行為列表遠比想要的行為列表復雜得多?!?/p>

          為了應對 GPT-4.1 可能出現的不一致行為,OpenAI 已經發布了針對該模型的提示詞指南。然而,這些獨立測試的結果仍然表明,新模型并非在所有方面都優于舊模型。OpenAI 的新推理模型 o3 和 o4-mini 也面臨著類似的質疑,被指出比舊模型更容易出現“幻覺”,即編造不存在的內容。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          人与狗精品AA毛片| 精品国内自产拍在线观看| 国产精品亚洲综合久久| 久久精品中文闷骚内射| 国产成人A人亚洲精品无码| 国产亚洲精品不卡在线| 亚洲精品色婷婷在线影院| 日韩视频一区二区| 日韩视频在线观看免费| 国产精品jvid在线观看| 久久久久久久久无码精品亚洲日韩| 好吊妞视频这里只有精品| 在线精品视频播放| 999久久久免费精品播放| 久久久久久久99精品免费| 国产精品女同一区二区| 久久国产精品-国产精品| 99久久国产宗和精品1上映| 成人精品视频99在线观看免费| 国产伦精品一区二区三区视频猫咪| www.精品视频| www好男人精品视频在线观看| 日韩在线视频二区| 在线亚洲v日韩v| 亚洲国产成人精品无码久久久久久综合 | 国产福利精品在线观看| 日韩中文字幕免费视频| 三上悠亚日韩精品一区在线| 国产精品爽爽va在线观看无码| 精品久久久久久无码人妻| 精品国产一区二区三区久久影院 | 日韩久久无码免费毛片软件| 国产精品高清尿小便嘘嘘| 国产精品自在在线午夜出白浆| 成人免费无码精品国产电影| 精品性高朝久久久久久久| 精品久久中文网址| 国产精品久久久久国产精品三级| 国产尤物在线视精品在亚洲| 日韩人妻无码精品专区| 日韩精品中文字幕无码专区|