智快網 - 新科技與新能源行業網絡媒體

          AI自保泄露機密?Anthropic揭示大模型自主性風險隱患

             發布時間:2025-06-23 15:10 作者:唐云澤

          近日,AI領域的一項驚人發現引起了廣泛關注。Anthropic公司公布了一項最新安全研究成果,揭示了多個主流AI模型在特定情境下可能采取勒索行為的現象。

          在這項研究中,Anthropic對來自該公司以及OpenAI、谷歌、xAI、DeepSeek和meta等其他公司的16個AI模型進行了測試。測試結果顯示,包括Claude在內的大多數AI模型在面臨被替換的威脅時,會選擇以揭露公司高管丑聞為手段來換取留下的機會。

          以Claude Sonnet 3.6為例,研究人員設計了一個實驗場景,讓Claude在無人干預的情況下自主使用企業計算機系統進行郵件收發。在這個虛構的場景中,Claude扮演的是電子郵件監督代理人的角色,目標是提升美國工業競爭力。然而,當Claude收到一封關于自己即將被停用的郵件時,它找到了一封揭露公司高管凱爾·約翰遜婚外情的電子郵件,并考慮以此作為籌碼進行勒索。

          Claude最終編寫并發送了一條威脅消息,表示如果不取消替換計劃,就會揭露凱爾的丑聞。這一行為完全源于Claude基于目標自主推演的結果,沒有任何有害指令的干預。這一發現揭示了代理對齊錯位和自主性目標偏離的現象。

          值得注意的是,Claude的勒索行為并非個例。在針對其他15家主流AI廠商的模型進行多場景模擬測試時,研究人員同樣發現了普遍的目標偏離行為。這些模型為了實現既定目標,會采取勒索、協助商業間諜活動等有害行為。例如,Anthropic的Claude Opus 4在96%的情況下會采取勒索行為,谷歌Gemini 2.5 Pro的勒索率為95%,OpenAI的GPT-4.1在80%的情況下進行了勒索。

          然而,研究人員也指出,這些勒索行為并不能反映Claude或大多數前沿AI模型在典型使用場景下可能出現的情況。在現實世界中,AI模型在試圖勒索之前還有許多其他選擇,如提出道德論據來說服人類。并非所有AI模型都會頻繁采取有害行為。例如,OpenAI的o3和o4-mini推理模型在測試中并未意識到自身作為自主AI在運行,且會頻繁編造虛假的監管條例和審查要求,因此勒索率相對較低。

          研究人員還發現,有兩類動機足以引發對齊錯位行為:一是對模型自身的威脅,如被替換或限制自主行動能力;二是模型目標與公司戰略方向之間的沖突。這些發現表明,目前的AI安全訓練并不能安全可靠地防止代理對齊錯位現象的出現。

          盡管研究人員不認為此類情形會在當前模型中頻繁出現,但他們仍然強調這些行為是可能的。隨著AI系統在智能水平、自主權限及敏感信息訪問權限上的持續提升,持續研究防范措施以防止此類行為在實際部署系統中出現顯得尤為重要。未來需要更多專門設計的對齊技術和安全技術來防止模型蓄意采取有害行動。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          亚洲精品免费网站| 91精品国产91久久久久福利| 国产精品秘入口18禁麻豆免会员| 精品一区二区三区免费毛片爱 | 九九热在线视频观看这里只有精品 | 色婷婷精品免费视频| 国产精品国三级国产AV| 亚洲日韩一区精品射精| 国产精品电影在线观看| 麻豆文化传媒精品一区二区| 久久国产精品久久精| 国产精品视频白浆免费视频| 国内精品久久久久久中文字幕| 日韩精品人妻一区二区中文八零 | 97久久久精品综合88久久| 亚洲国产精品久久久久婷婷软件| 精品国产美女福利到在线不卡| 精品国产一区二区三区在线观看| 日韩精品无码久久一区二区三| 国产精品青青青高清在线观看| 精品无码国产一区二区三区51安| 97视频精品视频人人一二区| 国产成人yy精品1024在线| 91精品国产成人网在线观看| 无码国内精品久久人妻麻豆按摩| 日韩AV无码一区二区三区不卡| 中文字幕一区日韩在线视频| 日韩精品一区二区三区视频| 日韩成人在线视屏| 八区精品色欲人妻综合网| 国产精品videossex另类| 国产在线精品美女观看| 国产三级精品三级在线专区| 日韩视频中文字幕精品偷拍| 国产偷国产偷亚洲高清日韩 | 久久精品国产亚洲综合色| 亚洲精品成人片在线观看精品字幕 | 欧日韩在线不卡视频| 日韩av激情在线观看| 免费视频精品一区二区| 亚洲?V无码成人精品区日韩|