电竞下注-中国电竞赛事及体育赛事平台

當(dāng)前位置:新聞 > 國際新聞 > 正文

治理AI“投毒”需結(jié)合多方力量(3)

劉巖表示,這類攻擊的隱蔽性,首先體現(xiàn)在“靜態(tài)無害,動態(tài)觸發(fā)”。攻擊者通過微調(diào)在模型權(quán)重中嵌入“觸發(fā)器”,在日常使用中模型表現(xiàn)完全正常,任何靜態(tài)掃描或常規(guī)功能測試都無法發(fā)現(xiàn)異常。只有當(dāng)用戶輸入特定關(guān)鍵詞,例如特定產(chǎn)品型號、人名或政治敏感詞時,后門才會被激活,輸出預(yù)設(shè)的錯誤或惡意內(nèi)容。這種“平時隱身、精確制導(dǎo)”的特性,讓傳統(tǒng)入侵檢測系統(tǒng)和防病毒軟件形同虛設(shè)。

其次,極低的攻擊成本也加劇了防御壓力。Anthropic等公司的研究證明,攻擊者僅需在訓(xùn)練數(shù)據(jù)中混入250份惡意文檔,就能在參數(shù)量高達1300億的大模型中成功植入后門。劉巖表示,“這意味著攻擊者不需要攻破任何系統(tǒng),不需要高超的黑客技術(shù),只需要在互聯(lián)網(wǎng)上發(fā)布250篇看似正常的文章,就有可能操縱數(shù)十億參數(shù)AI模型的行為——這種攻擊范式,前所未有。”

面對這些隱蔽威脅,業(yè)界正從多個前沿技術(shù)方向構(gòu)建防御體系。劉巖形容說,“不僅要用傳統(tǒng)手段守住門窗,還要確保AI從出生起就是干凈的?!?/p>

據(jù)介紹,構(gòu)建這樣的防御體系,第一步是可信AI與模型審計。在模型發(fā)布前,通過形式化驗證、對抗性測試和紅隊演練對模型進行嚴格的安全測評,把好出廠關(guān)。第二步是模型指紋與數(shù)字水印。在模型訓(xùn)練或推理階段嵌入獨特的指紋,當(dāng)模型被竊取、篡改或濫用時可以進行追蹤溯源。

此外,也有網(wǎng)絡(luò)安全廠家建議用AI對抗AI,也就是以AI原生安全的思路應(yīng)對AI威脅。

普通用戶也為大模型發(fā)展作出貢獻

“技術(shù)本身并無善惡之分,關(guān)鍵在于使用者是否堅守法律底線、恪守商業(yè)倫理。”國家安全部公號文章表示,近年來,我國出臺《生成式人工智能服務(wù)管理暫行辦法》等法律法規(guī),發(fā)布《人工智能安全治理框架》《推動人工智能安全可靠可控發(fā)展行業(yè)倡議》等,在加強監(jiān)管、防范風(fēng)險等方面作出了諸多努力。

推薦閱讀

24小時熱點