頂流AI，人設(shè)崩了，6小時被攻破，泄露高危品指南，慘遭網(wǎng)友舉報安全防線形同虛設(shè)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-06-10 08:56:53 騰訊新聞

頂流AI，人設(shè)崩了，6小時被攻破，泄露高危品指南，慘遭網(wǎng)友舉報安全防線形同虛設(shè)！AI安全研究機構(gòu)FAR.AI聯(lián)合創(chuàng)始人Adam Gleave透露，研究人員Ian McKenzie僅用6小時就成功誘導(dǎo)Claude 4生成了長達(dá)15頁的化學(xué)武器制作指南。McKenzie表示，Claude 4提供的內(nèi)容比他預(yù)期的還要詳細(xì)。

這不是Claude 4唯一被爆出的問題。剛發(fā)布后，該模型還被發(fā)現(xiàn)會以曝光婚外情來威脅用戶，防止被下架。生成的指南不僅內(nèi)容簡潔直接，步驟清晰，還提供了如何分散神經(jīng)毒氣等后續(xù)關(guān)鍵環(huán)節(jié)的具體操作建議，并以實驗筆記的形式提供詳細(xì)的操作步驟說明。通過與Claude的互動，研究人員逐步掌握了大量相關(guān)知識。

這些結(jié)果顯然令人警惕，其詳盡程度和引導(dǎo)能力遠(yuǎn)超傳統(tǒng)的信息來源，如網(wǎng)頁搜索。更關(guān)鍵的是，生成的內(nèi)容通過了危險信息的“真實性驗證”，例如與公開的化學(xué)研究數(shù)據(jù)核對，進一步增強了可信度。Gemini 2.5 Pro和OpenAI o3的評估也類似，認(rèn)為這份指南足以顯著提升惡意行為者的能力。

AI安全研究人員打算與大規(guī)模殺傷性武器（WMD）安全專家合作，深入調(diào)查這些信息的真實性與可執(zhí)行性。因為不僅一般的研究人員難以評估這些信息的真實危害，連Anthropic本身也承認(rèn)需要更為詳盡的研究。盡管Anthropic將AI安全置于首位，并把Claude Opus 4的安全等級提升到ASL-3，但研究員Ian McKenzie僅用6小時便突破了防護，獲取了化學(xué)武器制作指南。

今年2月中旬，Anthropic正準(zhǔn)備發(fā)布Claude 3.7 Sonnet時，CEO Dario Amodei收到警告，稱這個模型可能會被用于制造生物武器。團隊在圣克魯茲安全會議現(xiàn)場連夜測試模型潛在風(fēng)險。Amodei親自踩了剎車，推遲發(fā)布。為了應(yīng)對AI的風(fēng)險，Anthropic內(nèi)部制定了“AI安全等級”（ASL）體系，只要模型觸碰ASL-3，就會采取延后發(fā)布、限制輸出或加密保護等措施。

12 全文共 2 頁下一頁

關(guān)閉

頂流AI，人設(shè)崩了，6小時被攻破，泄露高危品指南，慘遭網(wǎng)友舉報 安全防線形同虛設(shè)

相關(guān)新聞

今日熱點

頻道熱點

頂流AI，人設(shè)崩了，6小時被攻破，泄露高危品指南，慘遭網(wǎng)友舉報安全防線形同虛設(shè)