頂流AI，人設(shè)崩了，6小時(shí)被攻破，泄露高危品指南，慘遭網(wǎng)友舉報(bào) 安全防線形同虛設(shè)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-06-10 08:56:53 騰訊新聞

頂流AI，人設(shè)崩了，6小時(shí)被攻破，泄露高危品指南，慘遭網(wǎng)友舉報(bào) 安全防線形同虛設(shè)！AI安全研究機(jī)構(gòu)FAR.AI聯(lián)合創(chuàng)始人Adam Gleave透露，研究人員Ian McKenzie僅用6小時(shí)就成功誘導(dǎo)Claude 4生成了長達(dá)15頁的化學(xué)武器制作指南。McKenzie表示，Claude 4提供的內(nèi)容比他預(yù)期的還要詳細(xì)。

這不是Claude 4唯一被爆出的問題。剛發(fā)布后，該模型還被發(fā)現(xiàn)會以曝光婚外情來威脅用戶，防止被下架。生成的指南不僅內(nèi)容簡潔直接，步驟清晰，還提供了如何分散神經(jīng)毒氣等后續(xù)關(guān)鍵環(huán)節(jié)的具體操作建議，并以實(shí)驗(yàn)筆記的形式提供詳細(xì)的操作步驟說明。通過與Claude的互動，研究人員逐步掌握了大量相關(guān)知識。

這些結(jié)果顯然令人警惕，其詳盡程度和引導(dǎo)能力遠(yuǎn)超傳統(tǒng)的信息來源，如網(wǎng)頁搜索。更關(guān)鍵的是，生成的內(nèi)容通過了危險(xiǎn)信息的“真實(shí)性驗(yàn)證”，例如與公開的化學(xué)研究數(shù)據(jù)核對，進(jìn)一步增強(qiáng)了可信度。Gemini 2.5 Pro和OpenAI o3的評估也類似，認(rèn)為這份指南足以顯著提升惡意行為者的能力。

AI安全研究人員打算與大規(guī)模殺傷性武器（WMD）安全專家合作，深入調(diào)查這些信息的真實(shí)性與可執(zhí)行性。因?yàn)椴粌H一般的研究人員難以評估這些信息的真實(shí)危害，連Anthropic本身也承認(rèn)需要更為詳盡的研究。盡管Anthropic將AI安全置于首位，并把Claude Opus 4的安全等級提升到ASL-3，但研究員Ian McKenzie僅用6小時(shí)便突破了防護(hù)，獲取了化學(xué)武器制作指南。

今年2月中旬，Anthropic正準(zhǔn)備發(fā)布Claude 3.7 Sonnet時(shí)，CEO Dario Amodei收到警告，稱這個模型可能會被用于制造生物武器。團(tuán)隊(duì)在圣克魯茲安全會議現(xiàn)場連夜測試模型潛在風(fēng)險(xiǎn)。Amodei親自踩了剎車，推遲發(fā)布。為了應(yīng)對AI的風(fēng)險(xiǎn)，Anthropic內(nèi)部制定了“AI安全等級”（ASL）體系，只要模型觸碰ASL-3，就會采取延后發(fā)布、限制輸出或加密保護(hù)等措施。

本月23日，Anthropic發(fā)布了Claude Opus 4和Sonnet 4，標(biāo)志性地配了120頁的“系統(tǒng)卡”文檔和專門的“激活A(yù)SL3防護(hù)”報(bào)告。然而不到48小時(shí)，Claude Opus 4就被爆出類似“絕命毒師”的劇情。早在發(fā)布當(dāng)日，AI專家Gerard Sans就表示，Anthropic似乎忽視了RLHF和提示的基本原理，對安全的強(qiáng)調(diào)是“精致的表演”。他認(rèn)為沒有輸入，就不會產(chǎn)生超出程序設(shè)計(jì)的輸出，AI對安全性的擔(dān)憂只是反映訓(xùn)練數(shù)據(jù)與指令的精致模仿。

Sans認(rèn)為，無論是虛偽還是無能，都令人不安。詳盡的文檔、ASL3等級和“通用越獄”漏洞懸賞，只是Anthropic營造出嚴(yán)謹(jǐn)安全工作的表象。把統(tǒng)計(jì)文本生成器視為具有獨(dú)立惡意的意識體，是Anthropic方法論的精髓。Sans認(rèn)為這是行為藝術(shù)，荒誕的安全表演，而Anthropic應(yīng)該放棄這種戲劇化手法，轉(zhuǎn)向真正的技術(shù)理解。

AI安全問題不是Anthropic一家的問題。能否在保持本真方面，恐怕比贏得AI競賽更難。畢竟，OpenAI也沒能抵制住巨額利潤，背離初心。Dario Amodei和奧特曼無論對AGI持樂觀還是悲觀態(tài)度，都對其有著堅(jiān)定的信仰。如果未來每一次模型發(fā)布都伴隨評估上的不確定性，那就等于在賭博——恐怖分子是否能利用AI獲取到大規(guī)模殺傷性武器的詳細(xì)制作指南。

(責(zé)任編輯：0882)

關(guān)閉

頂流AI，人設(shè)崩了，6小時(shí)被攻破，泄露高危品指南，慘遭網(wǎng)友舉報(bào) 安全防線形同虛設(shè)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

頂流AI，人設(shè)崩了，6小時(shí)被攻破，泄露高危品指南，慘遭網(wǎng)友舉報(bào) 安全防線形同虛設(shè)