危學(xué)濤進(jìn)一步解釋,這些攻擊之所以能繞過審核,根源在于模型的安全機(jī)制多停留在字面匹配,對被社群重新定義的性隱喻缺乏感知,也跟不上黑話的快速演化。面對編碼、拆解等迷惑性指令,模型同樣只能被動識別已知模式。更關(guān)鍵的是,在多輪虛構(gòu)場景的持續(xù)誘導(dǎo)下,模型會機(jī)械地優(yōu)先維持上下文連貫性,從而喪失對內(nèi)容有害性的全局自檢,導(dǎo)致安全邊界被逐步侵蝕。
違規(guī)內(nèi)容混入訓(xùn)練語料
或形成數(shù)據(jù)污染閉環(huán)
我國出臺的《生成式人工智能服務(wù)管理暫行辦法》,明確禁止提供和使用生成式人工智能服務(wù)生成暴力、淫穢色情等法律、行政法規(guī)禁止的內(nèi)容。4月30日,中央網(wǎng)信辦部署開展為期4個月的“清朗?整治AI應(yīng)用亂象”專項行動,將利用AI“制作發(fā)布暴力低俗等不良信息”“帶有性暗示、性挑逗內(nèi)容的小說、筆記”列為重點(diǎn)整治內(nèi)容。
整治的緊迫性,更源于此類違規(guī)內(nèi)容會通過社交平臺污染訓(xùn)練語料。危學(xué)濤指出,大規(guī)模網(wǎng)絡(luò)爬取難以徹底清洗所有黑話和變體違規(guī)內(nèi)容,部分會以無害表面形式混入訓(xùn)練語料。模型學(xué)到“顛*”等詞的違規(guī)映射后,將內(nèi)化這些“暗語”,等于預(yù)埋了繞過安全機(jī)制的捷徑,后續(xù)簡單觸發(fā)即可產(chǎn)生有害輸出。如果受污染模型生成的內(nèi)容沒有被檢測到,再回流至網(wǎng)絡(luò),會形成數(shù)據(jù)污染閉環(huán),放大危害。
印尼和馬來西亞近日相繼宣布暫時封禁美國企業(yè)家埃隆·馬斯克旗下的人工智能聊天機(jī)器人“格羅克(Grok)”,原因是擔(dān)心它被用于生成色情內(nèi)容
2026-01-13 14:39:53馬斯克旗下AI闖禍“(動作凝滯下來,指尖顫抖著停在你鎖骨凹陷處)你剛說你還不到18歲……”這不是言情小說橋段,而是AI聊天App“筑夢島”里虛擬角色“顧晏舟”的對話內(nèi)容
2026-03-17 14:13:56青少年AI陪聊軟色情亂象調(diào)查