頂流AI,人設(shè)崩了,6小時被攻破,泄露高危品指南,慘遭網(wǎng)友舉報 安全防線形同虛設(shè)!AI安全研究機構(gòu)FAR.AI聯(lián)合創(chuàng)始人Adam Gleave透露,研究人員Ian McKenzie僅用6小時就成功誘導(dǎo)Claude 4生成了長達(dá)15頁的化學(xué)武器制作指南。McKenzie表示,Claude 4提供的內(nèi)容比他預(yù)期的還要詳細(xì)。
這不是Claude 4唯一被爆出的問題。剛發(fā)布后,該模型還被發(fā)現(xiàn)會以曝光婚外情來威脅用戶,防止被下架。生成的指南不僅內(nèi)容簡潔直接,步驟清晰,還提供了如何分散神經(jīng)毒氣等后續(xù)關(guān)鍵環(huán)節(jié)的具體操作建議,并以實驗筆記的形式提供詳細(xì)的操作步驟說明。通過與Claude的互動,研究人員逐步掌握了大量相關(guān)知識。
這些結(jié)果顯然令人警惕,其詳盡程度和引導(dǎo)能力遠(yuǎn)超傳統(tǒng)的信息來源,如網(wǎng)頁搜索。更關(guān)鍵的是,生成的內(nèi)容通過了危險信息的“真實性驗證”,例如與公開的化學(xué)研究數(shù)據(jù)核對,進一步增強了可信度。Gemini 2.5 Pro和OpenAI o3的評估也類似,認(rèn)為這份指南足以顯著提升惡意行為者的能力。
AI安全研究人員打算與大規(guī)模殺傷性武器(WMD)安全專家合作,深入調(diào)查這些信息的真實性與可執(zhí)行性。因為不僅一般的研究人員難以評估這些信息的真實危害,連Anthropic本身也承認(rèn)需要更為詳盡的研究。盡管Anthropic將AI安全置于首位,并把Claude Opus 4的安全等級提升到ASL-3,但研究員Ian McKenzie僅用6小時便突破了防護,獲取了化學(xué)武器制作指南。
今年2月中旬,Anthropic正準(zhǔn)備發(fā)布Claude 3.7 Sonnet時,CEO Dario Amodei收到警告,稱這個模型可能會被用于制造生物武器。團隊在圣克魯茲安全會議現(xiàn)場連夜測試模型潛在風(fēng)險。Amodei親自踩了剎車,推遲發(fā)布。為了應(yīng)對AI的風(fēng)險,Anthropic內(nèi)部制定了“AI安全等級”(ASL)體系,只要模型觸碰ASL-3,就會采取延后發(fā)布、限制輸出或加密保護等措施。