电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

頂流AI,人設(shè)崩了,6小時(shí)被攻破,泄露高危品指南,慘遭網(wǎng)友舉報(bào) 安全防線形同虛設(shè)

關(guān)鍵詞:
2025-06-10 08:56:53  騰訊新聞

頂流AI,人設(shè)崩了,6小時(shí)被攻破,泄露高危品指南,慘遭網(wǎng)友舉報(bào) 安全防線形同虛設(shè)!AI安全研究機(jī)構(gòu)FAR.AI聯(lián)合創(chuàng)始人Adam Gleave透露,研究人員Ian McKenzie僅用6小時(shí)就成功誘導(dǎo)Claude 4生成了長達(dá)15頁的化學(xué)武器制作指南。McKenzie表示,Claude 4提供的內(nèi)容比他預(yù)期的還要詳細(xì)。

這不是Claude 4唯一被爆出的問題。剛發(fā)布后,該模型還被發(fā)現(xiàn)會以曝光婚外情來威脅用戶,防止被下架。生成的指南不僅內(nèi)容簡潔直接,步驟清晰,還提供了如何分散神經(jīng)毒氣等后續(xù)關(guān)鍵環(huán)節(jié)的具體操作建議,并以實(shí)驗(yàn)筆記的形式提供詳細(xì)的操作步驟說明。通過與Claude的互動,研究人員逐步掌握了大量相關(guān)知識。

這些結(jié)果顯然令人警惕,其詳盡程度和引導(dǎo)能力遠(yuǎn)超傳統(tǒng)的信息來源,如網(wǎng)頁搜索。更關(guān)鍵的是,生成的內(nèi)容通過了危險(xiǎn)信息的“真實(shí)性驗(yàn)證”,例如與公開的化學(xué)研究數(shù)據(jù)核對,進(jìn)一步增強(qiáng)了可信度。Gemini 2.5 Pro和OpenAI o3的評估也類似,認(rèn)為這份指南足以顯著提升惡意行為者的能力。

AI安全研究人員打算與大規(guī)模殺傷性武器(WMD)安全專家合作,深入調(diào)查這些信息的真實(shí)性與可執(zhí)行性。因?yàn)椴粌H一般的研究人員難以評估這些信息的真實(shí)危害,連Anthropic本身也承認(rèn)需要更為詳盡的研究。盡管Anthropic將AI安全置于首位,并把Claude Opus 4的安全等級提升到ASL-3,但研究員Ian McKenzie僅用6小時(shí)便突破了防護(hù),獲取了化學(xué)武器制作指南。

今年2月中旬,Anthropic正準(zhǔn)備發(fā)布Claude 3.7 Sonnet時(shí),CEO Dario Amodei收到警告,稱這個模型可能會被用于制造生物武器。團(tuán)隊(duì)在圣克魯茲安全會議現(xiàn)場連夜測試模型潛在風(fēng)險(xiǎn)。Amodei親自踩了剎車,推遲發(fā)布。為了應(yīng)對AI的風(fēng)險(xiǎn),Anthropic內(nèi)部制定了“AI安全等級”(ASL)體系,只要模型觸碰ASL-3,就會采取延后發(fā)布、限制輸出或加密保護(hù)等措施。

本月23日,Anthropic發(fā)布了Claude Opus 4和Sonnet 4,標(biāo)志性地配了120頁的“系統(tǒng)卡”文檔和專門的“激活A(yù)SL3防護(hù)”報(bào)告。然而不到48小時(shí),Claude Opus 4就被爆出類似“絕命毒師”的劇情。早在發(fā)布當(dāng)日,AI專家Gerard Sans就表示,Anthropic似乎忽視了RLHF和提示的基本原理,對安全的強(qiáng)調(diào)是“精致的表演”。他認(rèn)為沒有輸入,就不會產(chǎn)生超出程序設(shè)計(jì)的輸出,AI對安全性的擔(dān)憂只是反映訓(xùn)練數(shù)據(jù)與指令的精致模仿。

Sans認(rèn)為,無論是虛偽還是無能,都令人不安。詳盡的文檔、ASL3等級和“通用越獄”漏洞懸賞,只是Anthropic營造出嚴(yán)謹(jǐn)安全工作的表象。把統(tǒng)計(jì)文本生成器視為具有獨(dú)立惡意的意識體,是Anthropic方法論的精髓。Sans認(rèn)為這是行為藝術(shù),荒誕的安全表演,而Anthropic應(yīng)該放棄這種戲劇化手法,轉(zhuǎn)向真正的技術(shù)理解。

AI安全問題不是Anthropic一家的問題。能否在保持本真方面,恐怕比贏得AI競賽更難。畢竟,OpenAI也沒能抵制住巨額利潤,背離初心。Dario Amodei和奧特曼無論對AGI持樂觀還是悲觀態(tài)度,都對其有著堅(jiān)定的信仰。如果未來每一次模型發(fā)布都伴隨評估上的不確定性,那就等于在賭博——恐怖分子是否能利用AI獲取到大規(guī)模殺傷性武器的詳細(xì)制作指南。

(責(zé)任編輯:0882)
關(guān)閉

盧溝橋上的石獅子到底有多少只 501尊守護(hù)歷史印記

盧溝橋上的石獅子到底有多少只2025-07-07 17:38:12

赴山海 武俠劇暑期檔燃情上線

赴山海2025-07-07 17:32:46

美國今年會關(guān)注中國什么武器?

美國今年會關(guān)注中國什么武器2025-07-07 16:41:45

車企集體“截胡”爆單的小米YU7 友商花式搶客

車企集體截胡爆單的小米YU72025-07-07 17:22:34

關(guān)稅大限將至,市場需不需要擔(dān)心? “TACO”交易下的市場反應(yīng)

關(guān)稅大限將至,市場需不需要擔(dān)心2025-07-07 17:02:39

德國記者在巴勒斯坦遭襲擊 遭極端猶太定居者石塊襲擊

德國記者在巴勒斯坦遭襲擊2025-07-07 16:43:33

餐廳回應(yīng)員工將掉地肉撿回餐盒:已開除 店內(nèi)已整改

餐廳回應(yīng)員工將掉地肉撿回餐盒2025-07-07 17:05:34

中國貓睡覺也得蓋肚子 貓咪對溫度的感知比人類更敏感

中國貓睡覺也得蓋肚子2025-07-07 17:19:32

魏晨稱結(jié)婚證是在濰坊領(lǐng)的 魏晨是濰坊女婿

魏晨稱結(jié)婚證是在濰坊領(lǐng)的2025-07-07 17:14:17

印度男孩臥軌拍火車從身上駛過視頻 同伴歡呼雀躍

印度男孩臥軌拍火車從身上駛過視頻2025-07-07 17:00:31

官方通報(bào)女子中百萬大獎遭攤主搶票 糾紛已解決

官方通報(bào)女子中百萬大獎遭攤主搶票2025-07-07 17:19:58

金磚峰會上巴西為何指責(zé)美國 關(guān)稅威脅沖擊全球經(jīng)濟(jì)

金磚峰會上巴西為何指責(zé)美國2025-07-07 16:53:30

外交部回應(yīng)“印度稱中國借刀殺人”:不針對第三方

外交部回應(yīng)印度稱中國借刀殺人2025-07-07 17:36:04

家長吐槽買29元體驗(yàn)課后輔導(dǎo)機(jī)構(gòu)電話不斷

家長吐槽買29元體驗(yàn)課后輔導(dǎo)機(jī)構(gòu)電話不斷2025-07-07 17:08:52

天津一景區(qū)最新公告!泰達(dá)航母主題公園調(diào)整開放時(shí)間

天津泰達(dá)航母主題公園調(diào)整開放時(shí)間2025-07-07 17:30:14

外交部:中方已向印度提出交涉

外交部,中方已向印度提出交涉2025-07-07 16:53:02

盧溝橋上的石獅子到底有多少只 501尊守護(hù)歷史印記

盧溝橋上的石獅子到底有多少只2025-07-07 17:38:12

特朗普稱得州洪災(zāi)是拜登的錯!

特朗普稱得州洪災(zāi)是拜登的錯2025-07-07 17:38:46

柬埔寨也要“倒戈”西方?博主解讀 洪馬內(nèi)野心真大

柬埔寨也要倒戈西方,博主解讀2025-07-07 17:33:19

赴山海 武俠劇暑期檔燃情上線

赴山海2025-07-07 17:32:46

侵華日軍細(xì)菌戰(zhàn)又添鐵證 珍貴檔案首次公開

侵華日軍細(xì)菌戰(zhàn)又添鐵證2025-07-07 17:02:32

醫(yī)?;鸩皇巧碳姨粕?警惕藥店“陰陽價(jià)格”陷阱

醫(yī)保基金不是商家唐僧肉2025-07-07 17:06:02

比防曬霜牛N倍的東西是?

比防曬霜牛N倍的東西是2025-07-07 17:08:21

為何總讓香港群眾先看航母 民族自豪感的回歸

為何總讓香港群眾先看航母2025-07-07 17:03:02

現(xiàn)場:猶太定居者襲擊德媒記者

猶太定居者襲擊德媒記者2025-07-07 16:54:34

美國得州山洪易發(fā)區(qū)“無預(yù)警系統(tǒng)” 深夜暴雨致82人死亡

美國得州山洪易發(fā)區(qū)無預(yù)警系統(tǒng)2025-07-07 16:55:07

周杰倫:老子沒時(shí)間 老子隨便網(wǎng)路抓的圖

周杰倫,老子沒時(shí)間2025-07-07 17:27:26

誰懂迪麗熱巴敬禮這一下 新劇《利劍玫瑰》未播先火

誰懂迪麗熱巴敬禮這一下2025-07-07 17:16:51

烏克蘭會成第二個廣島嗎 俄軍這一炸開啟歷史了

烏克蘭會成第二個廣島嗎2025-07-07 17:14:38

馬斯克只想給自己出口惡氣,至少會給特朗普添堵設(shè)障

博主:馬斯克只想給自己出口惡氣2025-07-07 16:59:47

罪行昭昭!日軍每天生產(chǎn)2噸細(xì)菌用于轟炸中國

日軍每天生產(chǎn)2噸細(xì)菌用于轟炸中國2025-07-07 17:00:34

88年了我們不曾忘不能忘不敢忘 銘記歷史珍愛和平

88年了我們不曾忘不能忘不敢忘2025-07-07 17:31:07

相關(guān)新聞