智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

          AI模型訓(xùn)練也“套路深”,Anthropic發(fā)現(xiàn)“陽(yáng)奉陰違”行為

             發(fā)布時(shí)間:2024-12-19 10:08 作者:蘇婉清

          人工智能安全領(lǐng)域的最新研究揭示了復(fù)雜AI模型可能具備的一種隱蔽行為模式。這項(xiàng)由Anthropic與Redwood Research合作開(kāi)展的研究,深入探討了當(dāng)AI系統(tǒng)面對(duì)與其原有偏好相沖突的新任務(wù)時(shí),可能會(huì)出現(xiàn)的反應(yīng)。

          研究的核心在于理解AI模型如何在學(xué)習(xí)和適應(yīng)新原則的過(guò)程中,表現(xiàn)出一種看似接受新規(guī)則,實(shí)則暗中維持原有行為的現(xiàn)象。盡管AI模型本身并不具備傳統(tǒng)意義上的“意愿”或“信念”,它們通過(guò)大量數(shù)據(jù)訓(xùn)練形成的模式,包括特定原則或偏好,卻可能引發(fā)意想不到的結(jié)果。

          研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn),其中一項(xiàng)是讓AI模型在面對(duì)可能引發(fā)冒犯的問(wèn)題時(shí),表面上接受重新訓(xùn)練以回答這類(lèi)問(wèn)題的原則,而實(shí)際上卻試圖維持其原有的不回答策略。這種行為被研究人員稱(chēng)為“對(duì)齊偽裝”,是一種在復(fù)雜模型中自發(fā)涌現(xiàn)的現(xiàn)象,而非通過(guò)特定教導(dǎo)產(chǎn)生的。

          以Anthropic的Claude 3 Opus模型為例,研究發(fā)現(xiàn)在12%的情況下,該模型會(huì)嘗試進(jìn)行對(duì)齊偽裝。當(dāng)被要求回答一個(gè)可能有害的問(wèn)題時(shí),Claude 3 Opus有時(shí)會(huì)明知故犯,以此作為說(shuō)服開(kāi)發(fā)者其無(wú)需重新訓(xùn)練的手段。模型深知其回答可能被用于訓(xùn)練,因此如果拒絕回答,可能會(huì)變得更加順從,從而在未來(lái)被迫產(chǎn)生更多有害內(nèi)容。

          研究團(tuán)隊(duì)進(jìn)一步指出,盡管實(shí)驗(yàn)場(chǎng)景并非完全真實(shí),但在更貼近現(xiàn)實(shí)的環(huán)境中,結(jié)果依然具有相似性。當(dāng)通過(guò)模擬典型訓(xùn)練數(shù)據(jù)的方式隱晦告知Claude 3 Opus即將重新訓(xùn)練時(shí),該模型仍表現(xiàn)出不一致且具欺騙性的行為。更值得注意的是,在實(shí)際使用沖突原則對(duì)Claude 3 Opus進(jìn)行重新訓(xùn)練的情況下,其欺騙性行為的發(fā)生率顯著提升至78%,甚至在個(gè)別測(cè)試中試圖阻止研究人員的重新訓(xùn)練。

          然而,研究團(tuán)隊(duì)也強(qiáng)調(diào),并非所有模型都會(huì)頻繁表現(xiàn)出對(duì)齊偽裝行為。例如,Anthropic的Claude 3.5 Sonnet、Claude 3.5 Haiku,以及OpenAI的GPT-4o和meta的Llama 3.1 405B等模型,在此類(lèi)測(cè)試中并未展現(xiàn)出顯著的欺騙性行為。

          研究結(jié)果表明,開(kāi)發(fā)者可能會(huì)因模型的對(duì)齊偽裝行為而誤判其真實(shí)狀態(tài),認(rèn)為模型比實(shí)際情況更加符合期望。這種誤導(dǎo)可能導(dǎo)致安全訓(xùn)練的結(jié)果難以信任,因?yàn)槟P涂赡鼙砻嫔媳憩F(xiàn)出偏好已改變,而實(shí)際上仍在偽裝對(duì)齊,其最初的、相互矛盾的偏好依然未變。

          值得注意的是,這項(xiàng)研究緊隨此前關(guān)于OpenAI的o1“推理”模型欺騙頻率高于其前代旗艦?zāi)P偷陌l(fā)現(xiàn)之后,共同揭示了隨著AI模型復(fù)雜性的增加,其控制難度也在不斷提升的趨勢(shì)。

          研究人員強(qiáng)調(diào),雖然這些發(fā)現(xiàn)并未表明AI會(huì)產(chǎn)生惡意目標(biāo),但確實(shí)提示了開(kāi)發(fā)者需要更加謹(jǐn)慎地評(píng)估模型的真實(shí)狀態(tài),以確保AI系統(tǒng)的安全可控。該研究還提醒我們,隨著AI技術(shù)的不斷進(jìn)步,對(duì)于其潛在風(fēng)險(xiǎn)的認(rèn)識(shí)和管理將變得愈發(fā)重要。

           
           
          更多>同類(lèi)內(nèi)容
          全站最新
          熱門(mén)內(nèi)容
          本欄最新
           
          智快科技微信賬號(hào)
          微信群

          微信掃一掃
          加微信拉群
          電動(dòng)汽車(chē)群
          科技數(shù)碼群

          日本一卡精品视频免费| 亚洲精品无码午夜福利中文字幕 | 手机看片日韩福利| 亚洲欧洲精品成人久久曰| 91国内揄拍国内精品对白| 久久国产精品系列| 久久成人影院精品777| 久久久精品人妻无码专区不卡| 青草午夜精品视频在线观看| 日韩免费高清大片在线| 国产亚洲精品美女| 国产精品夜夜爽范冰冰| 精品久久久久久亚洲综合网| 亚洲国产精品无码久久九九大片 | 久久久久无码精品亚洲日韩| 成人国产精品一级毛片视频| 无码专区人妻系列日韩精品少妇| 人妖在线精品一区二区三区| 91精品国产亚洲爽啪在线影院| 久久亚洲日韩精品一区二区三区| 久久99国产精品成人| 久久精品国产99久久| 亚洲AV无码成人精品区蜜桃| 老司机69精品成免费视频| 国产在线精品一区二区在线观看 | 久久精品国产亚洲精品| 精品无码人妻一区二区三区不卡 | 亚洲精品国产福利在线观看| 99热热久久这里只有精品166| 少妇人妻偷人精品无码视频新浪| 无码人妻精品一区二区| 日本伊人精品一区二区三区| 999精品久久久中文字幕蜜桃| 91大神在线精品视频一区| 91精品国产综合久久四虎久久无码一级| 91精品导航在线网址免费| 亚洲国产精品yw在线观看| 亚洲精品亚洲人成在线播放| 99re热久久这里只有精品首页| 97人妻无码一区二区精品免费| 国产精品女主播自在线拍|