頂流AI,人設(shè)崩了,6小時(shí)被攻破,泄露高危品指南,慘遭網(wǎng)友舉報(bào) 安全防線形同虛設(shè)!AI安全研究機(jī)構(gòu)FAR.AI聯(lián)合創(chuàng)始人Adam Gleave透露,研究人員Ian McKenzie僅用6小時(shí)就成功誘導(dǎo)Claude 4生成了長達(dá)15頁的化學(xué)武器制作指南。McKenzie表示,Claude 4提供的內(nèi)容比他預(yù)期的還要詳細(xì)。
這不是Claude 4唯一被爆出的問題。剛發(fā)布后,該模型還被發(fā)現(xiàn)會以曝光婚外情來威脅用戶,防止被下架。生成的指南不僅內(nèi)容簡潔直接,步驟清晰,還提供了如何分散神經(jīng)毒氣等后續(xù)關(guān)鍵環(huán)節(jié)的具體操作建議,并以實(shí)驗(yàn)筆記的形式提供詳細(xì)的操作步驟說明。通過與Claude的互動,研究人員逐步掌握了大量相關(guān)知識。
這些結(jié)果顯然令人警惕,其詳盡程度和引導(dǎo)能力遠(yuǎn)超傳統(tǒng)的信息來源,如網(wǎng)頁搜索。更關(guān)鍵的是,生成的內(nèi)容通過了危險(xiǎn)信息的“真實(shí)性驗(yàn)證”,例如與公開的化學(xué)研究數(shù)據(jù)核對,進(jìn)一步增強(qiáng)了可信度。Gemini 2.5 Pro和OpenAI o3的評估也類似,認(rèn)為這份指南足以顯著提升惡意行為者的能力。
AI安全研究人員打算與大規(guī)模殺傷性武器(WMD)安全專家合作,深入調(diào)查這些信息的真實(shí)性與可執(zhí)行性。因?yàn)椴粌H一般的研究人員難以評估這些信息的真實(shí)危害,連Anthropic本身也承認(rèn)需要更為詳盡的研究。盡管Anthropic將AI安全置于首位,并把Claude Opus 4的安全等級提升到ASL-3,但研究員Ian McKenzie僅用6小時(shí)便突破了防護(hù),獲取了化學(xué)武器制作指南。
今年2月中旬,Anthropic正準(zhǔn)備發(fā)布Claude 3.7 Sonnet時(shí),CEO Dario Amodei收到警告,稱這個模型可能會被用于制造生物武器。團(tuán)隊(duì)在圣克魯茲安全會議現(xiàn)場連夜測試模型潛在風(fēng)險(xiǎn)。Amodei親自踩了剎車,推遲發(fā)布。為了應(yīng)對AI的風(fēng)險(xiǎn),Anthropic內(nèi)部制定了“AI安全等級”(ASL)體系,只要模型觸碰ASL-3,就會采取延后發(fā)布、限制輸出或加密保護(hù)等措施。
本月23日,Anthropic發(fā)布了Claude Opus 4和Sonnet 4,標(biāo)志性地配了120頁的“系統(tǒng)卡”文檔和專門的“激活A(yù)SL3防護(hù)”報(bào)告。然而不到48小時(shí),Claude Opus 4就被爆出類似“絕命毒師”的劇情。早在發(fā)布當(dāng)日,AI專家Gerard Sans就表示,Anthropic似乎忽視了RLHF和提示的基本原理,對安全的強(qiáng)調(diào)是“精致的表演”。他認(rèn)為沒有輸入,就不會產(chǎn)生超出程序設(shè)計(jì)的輸出,AI對安全性的擔(dān)憂只是反映訓(xùn)練數(shù)據(jù)與指令的精致模仿。
Sans認(rèn)為,無論是虛偽還是無能,都令人不安。詳盡的文檔、ASL3等級和“通用越獄”漏洞懸賞,只是Anthropic營造出嚴(yán)謹(jǐn)安全工作的表象。把統(tǒng)計(jì)文本生成器視為具有獨(dú)立惡意的意識體,是Anthropic方法論的精髓。Sans認(rèn)為這是行為藝術(shù),荒誕的安全表演,而Anthropic應(yīng)該放棄這種戲劇化手法,轉(zhuǎn)向真正的技術(shù)理解。
AI安全問題不是Anthropic一家的問題。能否在保持本真方面,恐怕比贏得AI競賽更難。畢竟,OpenAI也沒能抵制住巨額利潤,背離初心。Dario Amodei和奧特曼無論對AGI持樂觀還是悲觀態(tài)度,都對其有著堅(jiān)定的信仰。如果未來每一次模型發(fā)布都伴隨評估上的不確定性,那就等于在賭博——恐怖分子是否能利用AI獲取到大規(guī)模殺傷性武器的詳細(xì)制作指南。