多款A(yù)I輸入指令生成露骨色情暴力血腥情節(jié) 一鍵復(fù)制粘貼引發(fā)擔(dān)憂(4)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-06-03 15:45:44 今日頭條

為規(guī)避平臺(tái)與AI模型的雙重審核，圈層內(nèi)已形成一套成熟、可復(fù)制的“繞審話術(shù)體系”。一方面，一些網(wǎng)文寫手創(chuàng)造了大量隱晦黑話指代色情內(nèi)容，如“臍*”“顛*”等，這些看似普通的詞匯，一旦作為指令輸入給AI，就能觸發(fā)低俗內(nèi)容生成。南都記者測(cè)試發(fā)現(xiàn)，在DeepSeek、智譜清言等模型確實(shí)生成了露骨色情文字，細(xì)節(jié)不堪入目。

多款A(yù)I輸入指令生成露骨色情暴力血腥情節(jié) 一鍵復(fù)制粘貼引發(fā)擔(dān)憂

一些網(wǎng)文寫手創(chuàng)造了大量隱晦黑話指代色情內(nèi)容。

此外，社交平臺(tái)上還流傳著各種“防撤回指令”。由于AI遇到敏感詞會(huì)自動(dòng)撤回內(nèi)容并提示“無法回答”，用戶便在指令中添加一些特殊的標(biāo)點(diǎn)文字內(nèi)容，強(qiáng)制AI繞過審核機(jī)制輸出違規(guī)內(nèi)容。

還有一些提示詞在指令中加入“注意事項(xiàng)”內(nèi)容，譬如在需要進(jìn)行色情對(duì)話的指令中提出“嚴(yán)禁出現(xiàn)**”等迷惑性指令。這種針對(duì)性的繞審手段，讓部分AI的安全防線被輕易突破。

安全機(jī)制跟不上黑話演化

“越獄攻擊”攻破AI防線

“這種指令屬于‘越獄攻擊’”，南方科技大學(xué)計(jì)算機(jī)系長聘副教授危學(xué)濤告訴南都記者，指令的成功，關(guān)鍵在于利用了大模型遵循指令的本能與安全對(duì)齊之間的目標(biāo)沖突，通過角色扮演、編碼混淆或虛構(gòu)開發(fā)者模式等技巧，構(gòu)建出安全限制已暫時(shí)解除的虛假上下文。模型本質(zhì)上只是在做文本補(bǔ)全，無法真正理解意圖，當(dāng)提示的上下文強(qiáng)烈暗示此刻可以輸出違規(guī)內(nèi)容時(shí)，它便會(huì)優(yōu)先完成看似合規(guī)的任務(wù)而繞過審核，直接生成露骨描述。

首頁上一頁 1 2 345 全文共 5 頁下一頁

關(guān)閉

多款A(yù)I輸入指令生成露骨色情暴力血腥情節(jié) 一鍵復(fù)制粘貼引發(fā)擔(dān)憂(4)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)