meta AI公司近期揭曉了一項(xiàng)創(chuàng)新技術(shù)——LlamaFirewall,專為應(yīng)對(duì)AI智能體面臨的日益復(fù)雜的安全威脅而生,旨在為生產(chǎn)環(huán)境中的AI智能體筑起一道系統(tǒng)級(jí)的安全防線。
隨著大型語言模型(LLMs)在AI智能體中的深度嵌入,并在諸多高權(quán)限場(chǎng)景中廣泛應(yīng)用,安全問題日益凸顯。這些智能體具備讀取郵件、編寫代碼、調(diào)用API等強(qiáng)大功能,一旦被惡意利用,后果將不堪設(shè)想。
然而,傳統(tǒng)的安全機(jī)制,如聊天機(jī)器人內(nèi)容審核或硬編碼模型限制,在面對(duì)功能廣泛的AI智能體時(shí)顯得力不從心。meta AI針對(duì)提示注入攻擊、智能體行為偏離用戶目標(biāo)、不安全代碼生成等核心挑戰(zhàn),精心打造了LlamaFirewall。
LlamaFirewall采用分層架構(gòu)設(shè)計(jì),內(nèi)含三大專業(yè)防護(hù)模塊。其中,PromptGuard 2基于BERT架構(gòu),是一款強(qiáng)大的分類器,能夠?qū)崟r(shí)檢測(cè)越獄行為和提示注入,支持多語言輸入。其86M參數(shù)模型性能卓越,而22M輕量版本則更適合低延遲部署場(chǎng)景。
AlignmentCheck則是一種創(chuàng)新的審計(jì)工具,通過深入分析智能體內(nèi)部推理軌跡,確保其行為始終與用戶目標(biāo)保持一致。該工具在檢測(cè)間接提示注入方面表現(xiàn)出色。
CodeShield作為一個(gè)靜態(tài)分析引擎,專注于檢查L(zhǎng)LM生成的代碼中的不安全模式。它支持多種編程語言,能夠在代碼提交或執(zhí)行前準(zhǔn)確捕獲SQL注入等常見漏洞,確保代碼的安全性。
為了驗(yàn)證LlamaFirewall的有效性,meta在AgentDojo基準(zhǔn)測(cè)試中對(duì)其進(jìn)行了全面評(píng)估。測(cè)試中模擬了來自97個(gè)任務(wù)領(lǐng)域的提示注入攻擊。結(jié)果顯示,PromptGuard 2(86M)成功將攻擊成功率(ASR)從17.6%降低到7.5%,且對(duì)任務(wù)實(shí)用性的影響微乎其微。而AlignmentCheck的加入進(jìn)一步將ASR降至2.9%。整個(gè)LlamaFirewall系統(tǒng)將ASR降低了90%,降至1.75%,盡管實(shí)用性略有下降至42.7%,但仍保持在可接受范圍內(nèi)。同時(shí),CodeShield在不安全代碼數(shù)據(jù)集上的表現(xiàn)同樣亮眼,精準(zhǔn)度高達(dá)96%,召回率達(dá)到79%,響應(yīng)時(shí)間也完全滿足生產(chǎn)環(huán)境的實(shí)時(shí)使用需求。