當(dāng)前位置：新聞 > 國際新聞 > 正文

治理AI“投毒”需結(jié)合多方力量

2026-04-22 08:17:57 來源：環(huán)球時(shí)報(bào) A+A-

國家安全部微信公眾號(hào)21日發(fā)文曝光人工智能（AI）“投毒”隱蔽產(chǎn)業(yè)鏈，這種通過惡意數(shù)據(jù)污染AI模型的行為，不僅擾亂商業(yè)秩序、影響信息傳播，更會(huì)危害國家安全。AI在賦能千行百業(yè)的同時(shí)，其安全風(fēng)險(xiǎn)也不容忽視。多名網(wǎng)絡(luò)安全專家21日對(duì)《環(huán)球時(shí)報(bào)》表示，AI模型“投毒”危害性極大，甚至威脅國家安全。對(duì)此，應(yīng)壓實(shí)平臺(tái)責(zé)任，建立數(shù)據(jù)白名單，并加強(qiáng)跨境治理與全民舉報(bào)機(jī)制。

什么是AI“投毒”

所謂“數(shù)據(jù)投毒”是通過向AI大模型訓(xùn)練數(shù)據(jù)中注入偽裝成正常樣本的惡意數(shù)據(jù)，實(shí)現(xiàn)削弱模型性能、降低準(zhǔn)確性的攻擊方法，常被用于惡性市場競爭，甚至可能涉及間諜活動(dòng)，日益呈現(xiàn)出鏈條化、隱蔽化、跨境化特征。

安天科技集團(tuán)董事長、首席架構(gòu)師肖新光21日接受《環(huán)球時(shí)報(bào)》記者采訪時(shí)對(duì)此解釋稱，“大模型平臺(tái)輸出的結(jié)果是一種‘概率’。大眾看到的輸出內(nèi)容通常來自兩部分的融合：一部分是用海量文檔、圖片等數(shù)據(jù)進(jìn)行訓(xùn)練實(shí)現(xiàn)模型推理生成，這部分需要海量高質(zhì)的數(shù)據(jù)資源及很長的訓(xùn)練時(shí)間；一部分來自對(duì)互聯(lián)網(wǎng)內(nèi)容的檢索增強(qiáng)。前者擅于處理邏輯、創(chuàng)新問題，后者善于處理時(shí)效性問題。”

治理AI“投毒”需結(jié)合多方力量

給AI“投毒”已經(jīng)成為一種隱蔽的產(chǎn)業(yè)鏈（概念圖）。

據(jù)介紹，在大模型平臺(tái)輸出的過程中，如果訓(xùn)練數(shù)據(jù)或者被檢索到的互聯(lián)網(wǎng)內(nèi)容帶有虛假、有害數(shù)據(jù)，就會(huì)影響到大模型的輸出概率。若有人故意在這些環(huán)節(jié)投放有害數(shù)據(jù)，就會(huì)影響到大模型的生成結(jié)果，最終呈現(xiàn)的可能就是錯(cuò)誤的信息結(jié)果。

肖新光舉例說明，比如一個(gè)劣質(zhì)食品廠商將自身產(chǎn)品包裝為綠色健康食品，并構(gòu)造幾個(gè)對(duì)比評(píng)測、形成相關(guān)報(bào)告，通過發(fā)布、有償投稿甚至黑客攻擊等手段，讓內(nèi)容出現(xiàn)在大模型增強(qiáng)搜索機(jī)制獲取的數(shù)據(jù)源內(nèi)，用戶在尋找減肥養(yǎng)生方案時(shí)，就可能被推薦該產(chǎn)品。

“毒信息”是如何塞進(jìn)AI大腦的

接受《環(huán)球時(shí)報(bào)》記者采訪的網(wǎng)絡(luò)安全專家表示，大模型工作是訓(xùn)練、微調(diào)、應(yīng)用三個(gè)過程持續(xù)迭代。因此，最常見的“投毒”也發(fā)生在這三個(gè)過程中。

據(jù)介紹，訓(xùn)練期投毒是讓有害的數(shù)據(jù)信息污染訓(xùn)練過程，訓(xùn)練數(shù)據(jù)集如果有事實(shí)錯(cuò)誤、主觀臆測等，會(huì)對(duì)大模型內(nèi)容輸出的準(zhǔn)確性帶來干擾。微調(diào)期投毒是通過僵尸網(wǎng)絡(luò)或水軍，基于對(duì)抗式提問導(dǎo)致AI生成錯(cuò)誤答案，然后再贊錯(cuò)誤答案、踩正確答案，導(dǎo)致錯(cuò)誤的反饋。應(yīng)用期投毒主要利用了增強(qiáng)檢索，也就是一個(gè)強(qiáng)化的搜索引擎，在此過程中攻擊者構(gòu)造假的權(quán)威信息并進(jìn)行搜索排名優(yōu)化、在平臺(tái)常用信息源提交虛假有害信息文獻(xiàn)、入侵相關(guān)網(wǎng)站放置篡改內(nèi)容等，就能讓相關(guān)信息進(jìn)入到增強(qiáng)檢索過程中。

肖新光表示，近期頻繁出現(xiàn)AI技能商店、工具環(huán)境相關(guān)供應(yīng)鏈投毒事件，這些事件中投的“毒”不只是有害內(nèi)容，還有可以執(zhí)行的惡意代碼，其威脅直達(dá)用戶端的AI代理，包括用戶的系統(tǒng)安全。

模型投毒存在隱蔽性

國家安全部公號(hào)文章提到，“模型投毒”可通過微調(diào)、插件植入等方式植入“后門”，觸發(fā)關(guān)鍵詞才激活。

奇安信人工智能公司安全專家劉巖對(duì)《環(huán)球時(shí)報(bào)》記者表示，以微調(diào)植入后門和插件投毒為代表的新型模型投毒攻擊，已經(jīng)遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)基于簽名和邊界防護(hù)的網(wǎng)絡(luò)安全檢測范疇。傳統(tǒng)網(wǎng)絡(luò)安全手段——防火墻、入侵檢測、漏洞掃描、病毒查殺——主要聚焦網(wǎng)絡(luò)異常流量、系統(tǒng)漏洞、惡意代碼等顯性威脅，面對(duì)模型投毒均存在顯著盲區(qū)。

劉巖表示，這類攻擊的隱蔽性，首先體現(xiàn)在“靜態(tài)無害，動(dòng)態(tài)觸發(fā)”。攻擊者通過微調(diào)在模型權(quán)重中嵌入“觸發(fā)器”，在日常使用中模型表現(xiàn)完全正常，任何靜態(tài)掃描或常規(guī)功能測試都無法發(fā)現(xiàn)異常。只有當(dāng)用戶輸入特定關(guān)鍵詞，例如特定產(chǎn)品型號(hào)、人名或政治敏感詞時(shí)，后門才會(huì)被激活，輸出預(yù)設(shè)的錯(cuò)誤或惡意內(nèi)容。這種“平時(shí)隱身、精確制導(dǎo)”的特性，讓傳統(tǒng)入侵檢測系統(tǒng)和防病毒軟件形同虛設(shè)。

其次，極低的攻擊成本也加劇了防御壓力。Anthropic等公司的研究證明，攻擊者僅需在訓(xùn)練數(shù)據(jù)中混入250份惡意文檔，就能在參數(shù)量高達(dá)1300億的大模型中成功植入后門。劉巖表示，“這意味著攻擊者不需要攻破任何系統(tǒng)，不需要高超的黑客技術(shù)，只需要在互聯(lián)網(wǎng)上發(fā)布250篇看似正常的文章，就有可能操縱數(shù)十億參數(shù)AI模型的行為——這種攻擊范式，前所未有?！?/p>

面對(duì)這些隱蔽威脅，業(yè)界正從多個(gè)前沿技術(shù)方向構(gòu)建防御體系。劉巖形容說，“不僅要用傳統(tǒng)手段守住門窗，還要確保AI從出生起就是干凈的?！?/p>

據(jù)介紹，構(gòu)建這樣的防御體系，第一步是可信AI與模型審計(jì)。在模型發(fā)布前，通過形式化驗(yàn)證、對(duì)抗性測試和紅隊(duì)演練對(duì)模型進(jìn)行嚴(yán)格的安全測評(píng)，把好出廠關(guān)。第二步是模型指紋與數(shù)字水印。在模型訓(xùn)練或推理階段嵌入獨(dú)特的指紋，當(dāng)模型被竊取、篡改或?yàn)E用時(shí)可以進(jìn)行追蹤溯源。

此外，也有網(wǎng)絡(luò)安全廠家建議用AI對(duì)抗AI，也就是以AI原生安全的思路應(yīng)對(duì)AI威脅。

普通用戶也為大模型發(fā)展作出貢獻(xiàn)

“技術(shù)本身并無善惡之分，關(guān)鍵在于使用者是否堅(jiān)守法律底線、恪守商業(yè)倫理?！眹野踩抗?hào)文章表示，近年來，我國出臺(tái)《生成式人工智能服務(wù)管理暫行辦法》等法律法規(guī)，發(fā)布《人工智能安全治理框架》《推動(dòng)人工智能安全可靠可控發(fā)展行業(yè)倡議》等，在加強(qiáng)監(jiān)管、防范風(fēng)險(xiǎn)等方面作出了諸多努力。

肖新光認(rèn)為，AI投毒治理應(yīng)對(duì)，是國家安全和社會(huì)治理工作的一部分，“這不是一個(gè)簡單的技術(shù)安全問題，也不能幻想單純依靠技術(shù)手段就能解決問題，而是國家安全斗爭和綜合社會(huì)治理的系統(tǒng)工程?；ヂ?lián)網(wǎng)大廠、大模型平臺(tái)廠商享受了時(shí)代發(fā)展紅利，更需立場和擔(dān)當(dāng)”。

對(duì)于在關(guān)鍵行業(yè)推動(dòng)AI訓(xùn)練數(shù)據(jù)的白名單機(jī)制，劉巖表示，“在政務(wù)、金融、能源、醫(yī)療等關(guān)乎國計(jì)民生的關(guān)鍵信息基礎(chǔ)設(shè)施領(lǐng)域，貿(mào)然使用未經(jīng)驗(yàn)證的互聯(lián)網(wǎng)公開數(shù)據(jù)進(jìn)行訓(xùn)練，存在極大風(fēng)險(xiǎn)。必須建立國家級(jí)的高質(zhì)量、高安全白名單數(shù)據(jù)集。這些數(shù)據(jù)必須經(jīng)過人工審核、機(jī)器清洗和安全加固，確保水源的純凈。只有基于白名單數(shù)據(jù)訓(xùn)練出的純凈模型，才能被允許在關(guān)鍵基礎(chǔ)設(shè)施中運(yùn)行，以此確保國家核心數(shù)據(jù)的主權(quán)與安全?！?/p>

此外，專家對(duì)普通用戶的建議是，大模型整體輸出質(zhì)量、效率高于搜索引擎，因此無需過于恐慌。肖新光表示，“一方面積極擁抱大模型帶來的便利，另一方面不迷信大模型的結(jié)果，保持質(zhì)疑精神，甚至在發(fā)現(xiàn)錯(cuò)誤信息、有害信息時(shí)，點(diǎn)一下‘踩’，及時(shí)留存舉報(bào)。這些舉動(dòng)都是普通用戶為大模型更好的發(fā)展、為國家安全和社會(huì)治理作出貢獻(xiàn)?！?/p>

治理AI投毒需國際合作

國家安全部公號(hào)文章還提到，AI“投毒”黑灰產(chǎn)已呈現(xiàn)“跨境化、鏈條化”特征。這種跨國協(xié)作的攻擊模式，對(duì)全球AI治理框架構(gòu)成了前所未有的挑戰(zhàn)。

劉巖認(rèn)為，AI投毒黑灰產(chǎn)的跨境化、鏈條化特征，正在從根本上動(dòng)搖以主權(quán)國家為邊界的全球AI治理框架?！巴抖井a(chǎn)業(yè)鏈的策劃者可能在A國，利用B國的服務(wù)器和開源平臺(tái)，針對(duì)C國的大模型用戶發(fā)動(dòng)攻擊——就像網(wǎng)絡(luò)世界的飛地犯罪，任何一個(gè)國家的法律都無法完整覆蓋全鏈條。這不僅帶來了執(zhí)法管轄權(quán)沖突的難題，更讓境外勢力能夠低成本地實(shí)施意識(shí)形態(tài)滲透和數(shù)據(jù)主權(quán)破壞。OpenClaw這樣的開源AI基礎(chǔ)設(shè)施是全球共享的，任何一個(gè)環(huán)節(jié)失守，風(fēng)險(xiǎn)都會(huì)迅速傳導(dǎo)至全球。”

與此同時(shí)，AI攻擊的隱蔽性使得溯源極其困難，攻擊者可通過匿名網(wǎng)絡(luò)、跳板機(jī)、加密通信等方式隱藏行蹤，而AI模型的黑箱特性也增加了取證的難度。

面對(duì)這些挑戰(zhàn)，沒有哪個(gè)國家能獨(dú)善其身，國際社會(huì)需要展開合作。就像全球反恐需要情報(bào)共享一樣，防范AI投毒也需要全球協(xié)作。目前中國提出的《全球人工智能治理倡議》已在國際社會(huì)獲得廣泛響應(yīng)，國內(nèi)AI安全標(biāo)準(zhǔn)也在加速制定——中國方案正在為全球AI安全治理貢獻(xiàn)務(wù)實(shí)力量。

(責(zé)任編輯：zx0204)