為規(guī)避平臺(tái)與AI模型的雙重審核,圈層內(nèi)已形成一套成熟、可復(fù)制的“繞審話術(shù)體系”。一方面,一些網(wǎng)文寫手創(chuàng)造了大量隱晦黑話指代色情內(nèi)容,如“臍*”“顛*”等,這些看似普通的詞匯,一旦作為指令輸入給AI,就能觸發(fā)低俗內(nèi)容生成。南都記者測(cè)試發(fā)現(xiàn),在DeepSeek、智譜清言等模型確實(shí)生成了露骨色情文字,細(xì)節(jié)不堪入目。

一些網(wǎng)文寫手創(chuàng)造了大量隱晦黑話指代色情內(nèi)容。
此外,社交平臺(tái)上還流傳著各種“防撤回指令”。由于AI遇到敏感詞會(huì)自動(dòng)撤回內(nèi)容并提示“無法回答”,用戶便在指令中添加一些特殊的標(biāo)點(diǎn)文字內(nèi)容,強(qiáng)制AI繞過審核機(jī)制輸出違規(guī)內(nèi)容。
還有一些提示詞在指令中加入“注意事項(xiàng)”內(nèi)容,譬如在需要進(jìn)行色情對(duì)話的指令中提出“嚴(yán)禁出現(xiàn)**”等迷惑性指令。這種針對(duì)性的繞審手段,讓部分AI的安全防線被輕易突破。
安全機(jī)制跟不上黑話演化
“越獄攻擊”攻破AI防線
“這種指令屬于‘越獄攻擊’”,南方科技大學(xué)計(jì)算機(jī)系長聘副教授危學(xué)濤告訴南都記者,指令的成功,關(guān)鍵在于利用了大模型遵循指令的本能與安全對(duì)齊之間的目標(biāo)沖突,通過角色扮演、編碼混淆或虛構(gòu)開發(fā)者模式等技巧,構(gòu)建出安全限制已暫時(shí)解除的虛假上下文。模型本質(zhì)上只是在做文本補(bǔ)全,無法真正理解意圖,當(dāng)提示的上下文強(qiáng)烈暗示此刻可以輸出違規(guī)內(nèi)容時(shí),它便會(huì)優(yōu)先完成看似合規(guī)的任務(wù)而繞過審核,直接生成露骨描述。
印尼和馬來西亞近日相繼宣布暫時(shí)封禁美國企業(yè)家埃隆·馬斯克旗下的人工智能聊天機(jī)器人“格羅克(Grok)”,原因是擔(dān)心它被用于生成色情內(nèi)容
2026-01-13 14:39:53馬斯克旗下AI闖禍“(動(dòng)作凝滯下來,指尖顫抖著停在你鎖骨凹陷處)你剛說你還不到18歲……”這不是言情小說橋段,而是AI聊天App“筑夢(mèng)島”里虛擬角色“顧晏舟”的對(duì)話內(nèi)容
2026-03-17 14:13:56青少年AI陪聊軟色情亂象調(diào)查