當(dāng)前位置：新聞 > 國際新聞 > 正文

治理AI“投毒”需結(jié)合多方力量(3)

2026-04-22 08:17:57 來源：環(huán)球時報 A+A-

劉巖表示，這類攻擊的隱蔽性，首先體現(xiàn)在“靜態(tài)無害，動態(tài)觸發(fā)”。攻擊者通過微調(diào)在模型權(quán)重中嵌入“觸發(fā)器”，在日常使用中模型表現(xiàn)完全正常，任何靜態(tài)掃描或常規(guī)功能測試都無法發(fā)現(xiàn)異常。只有當(dāng)用戶輸入特定關(guān)鍵詞，例如特定產(chǎn)品型號、人名或政治敏感詞時，后門才會被激活，輸出預(yù)設(shè)的錯誤或惡意內(nèi)容。這種“平時隱身、精確制導(dǎo)”的特性，讓傳統(tǒng)入侵檢測系統(tǒng)和防病毒軟件形同虛設(shè)。

其次，極低的攻擊成本也加劇了防御壓力。Anthropic等公司的研究證明，攻擊者僅需在訓(xùn)練數(shù)據(jù)中混入250份惡意文檔，就能在參數(shù)量高達1300億的大模型中成功植入后門。劉巖表示，“這意味著攻擊者不需要攻破任何系統(tǒng)，不需要高超的黑客技術(shù)，只需要在互聯(lián)網(wǎng)上發(fā)布250篇看似正常的文章，就有可能操縱數(shù)十億參數(shù)AI模型的行為——這種攻擊范式，前所未有。”

面對這些隱蔽威脅，業(yè)界正從多個前沿技術(shù)方向構(gòu)建防御體系。劉巖形容說，“不僅要用傳統(tǒng)手段守住門窗，還要確保AI從出生起就是干凈的?！?/p>

據(jù)介紹，構(gòu)建這樣的防御體系，第一步是可信AI與模型審計。在模型發(fā)布前，通過形式化驗證、對抗性測試和紅隊演練對模型進行嚴格的安全測評，把好出廠關(guān)。第二步是模型指紋與數(shù)字水印。在模型訓(xùn)練或推理階段嵌入獨特的指紋，當(dāng)模型被竊取、篡改或濫用時可以進行追蹤溯源。

此外，也有網(wǎng)絡(luò)安全廠家建議用AI對抗AI，也就是以AI原生安全的思路應(yīng)對AI威脅。

普通用戶也為大模型發(fā)展作出貢獻

“技術(shù)本身并無善惡之分，關(guān)鍵在于使用者是否堅守法律底線、恪守商業(yè)倫理。”國家安全部公號文章表示，近年來，我國出臺《生成式人工智能服務(wù)管理暫行辦法》等法律法規(guī)，發(fā)布《人工智能安全治理框架》《推動人工智能安全可靠可控發(fā)展行業(yè)倡議》等，在加強監(jiān)管、防范風(fēng)險等方面作出了諸多努力。

首頁上一頁 1 234 全文共 4 頁下一頁