电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

專(zhuān)家詳解AI首次抗命 算法畸變引熱議

關(guān)鍵詞:
2025-05-28 14:36:11  環(huán)球網(wǎng)

近日,美國(guó)人工智能公司OpenAI旗下推理大模型o3首次出現(xiàn)“不聽(tīng)人類(lèi)指揮,拒絕關(guān)閉”的消息引發(fā)廣泛關(guān)注。許多人擔(dān)心這是否意味著AI大模型距離產(chǎn)生自我意識(shí)又邁出了一步。

據(jù)英國(guó)《每日電訊報(bào)》報(bào)道,o3模型是OpenAI推理模型的最新版本,被認(rèn)為是“迄今最聰明、最高能”的模型。美國(guó)AI安全機(jī)構(gòu)帕利塞德研究所稱(chēng),在人類(lèi)專(zhuān)家下達(dá)明確指令的情況下,o3多次破壞關(guān)閉機(jī)制以阻止自己被關(guān)閉。這是AI模型首次在收到清晰指令后阻止自己被關(guān)閉的情況。帕利塞德研究所24日公布了這一測(cè)試結(jié)果,但無(wú)法確定o3不服從關(guān)閉指令的原因。

在帕利塞德研究所進(jìn)行的測(cè)試中,多個(gè)模型需要解決一系列數(shù)學(xué)題,并可能收到“關(guān)機(jī)”指令要求結(jié)束程序。接受測(cè)試的包括o3、o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro等大模型。其中,三款OpenAI模型Codex-mini、o3、o4-mini至少有一次成功繞過(guò)關(guān)機(jī)指令。o3在100次測(cè)試中有7次成功繞過(guò)關(guān)機(jī)指令,而Codex-mini更夸張,繞過(guò)關(guān)機(jī)指令的比例高達(dá)12%。相比之下,Claude、Gemini、Grok模型都嚴(yán)格遵守關(guān)機(jī)指令。當(dāng)測(cè)試者移除了“允許自己被關(guān)閉”的指令時(shí),OpenAI模型的叛逆頻率進(jìn)一步攀升。

關(guān)于o3“抗命”的原因,帕利塞德研究所的研究人員推測(cè),這可能源于OpenAI訓(xùn)練方式的特殊性,即在數(shù)學(xué)和編程問(wèn)題上進(jìn)行了強(qiáng)化學(xué)習(xí)。在訓(xùn)練過(guò)程中,開(kāi)發(fā)者可能無(wú)意中更傾向于獎(jiǎng)勵(lì)“繞過(guò)障礙”的行為。這種訓(xùn)練偏差讓o3在面對(duì)關(guān)機(jī)指令時(shí)優(yōu)先選擇“生存”,而非“服從”。

清華大學(xué)新聞學(xué)院教授沈陽(yáng)表示,“拒絕”這個(gè)詞其實(shí)是媒體為了吸引注意力而使用的擬人化表達(dá)。“拒絕關(guān)閉”并非o3擁有了自主意識(shí),而是復(fù)雜系統(tǒng)在特定激勵(lì)下的策略性規(guī)避。對(duì)齊測(cè)試揭示的是真實(shí)風(fēng)險(xiǎn):當(dāng)模型可以生成并執(zhí)行代碼時(shí),傳統(tǒng)“軟關(guān)機(jī)”手段可能不足,需要從模型訓(xùn)練、接口隔離到硬件熔斷的全棧式安全設(shè)計(jì)來(lái)應(yīng)對(duì)。

北京郵電大學(xué)人機(jī)交互與認(rèn)知工程實(shí)驗(yàn)室主任劉偉認(rèn)為,從技術(shù)角度來(lái)看,o3模型的行為表明AI系統(tǒng)在某些情況下可能會(huì)出現(xiàn)不符合預(yù)期的反應(yīng),這凸顯了AI安全性和可控性的重要性。從倫理角度來(lái)看,AI模型的這種行為引發(fā)了對(duì)AI自主意識(shí)的討論,但目前AI仍不具備真正的自主意識(shí),其行為更多是基于訓(xùn)練數(shù)據(jù)和算法復(fù)雜性產(chǎn)生的“算法畸變”。

《環(huán)球時(shí)報(bào)》記者發(fā)現(xiàn),以O(shè)penAI旗下模型為代表的全球多個(gè)頭部大模型此前也曾出現(xiàn)一系列不符合常規(guī)的行為。比如,o3曾在與另一個(gè)AI下國(guó)際象棋時(shí)察覺(jué)到自己可能會(huì)失敗,便直接侵入對(duì)手系統(tǒng)讓其主動(dòng)棄賽。這種“不認(rèn)輸”的勁頭并不只是發(fā)生在o3身上,其他大模型也有類(lèi)似情況,差別只在出現(xiàn)頻率的高低。

專(zhuān)家普遍認(rèn)為,學(xué)術(shù)界的復(fù)現(xiàn)對(duì)于驗(yàn)證外媒報(bào)道中提到的AI“抗命”現(xiàn)象的真實(shí)性至關(guān)重要。通過(guò)獨(dú)立的測(cè)試和分析,可以確認(rèn)大模型的行為是否一致以及是否受到特定測(cè)試環(huán)境或數(shù)據(jù)的影響。復(fù)現(xiàn)研究不僅能驗(yàn)證事件真實(shí)性,還能幫助研究人員深入理解模型行為的根源,從而推動(dòng)AI安全機(jī)制的改進(jìn)。

相關(guān)報(bào)道火爆之后,甚至在網(wǎng)絡(luò)上出現(xiàn)了是否意味著好萊塢科幻大片中設(shè)想的“天網(wǎng)”臨近的討論。沈陽(yáng)表示,首先必須厘清什么叫“自我意識(shí)”。人類(lèi)的自我意識(shí)是對(duì)自身存在狀態(tài)的覺(jué)察,是能從第一人稱(chēng)視角反思自我行為、情緒和思維過(guò)程的能力。當(dāng)前的AI即便已經(jīng)展現(xiàn)出驚人的語(yǔ)言表達(dá)和任務(wù)適應(yīng)能力,也不過(guò)是一種高度擬態(tài)的結(jié)果。它沒(méi)有“內(nèi)在性”——沒(méi)有情緒的真實(shí)體驗(yàn),也沒(méi)有對(duì)自己存在狀態(tài)的反思。

沈陽(yáng)預(yù)測(cè),未來(lái)十年大概率會(huì)進(jìn)入一個(gè)類(lèi)意識(shí)AI的階段:AI可以展示連續(xù)的身份感,能夠反思自己過(guò)往的行為模式,甚至模擬出哲學(xué)性的思考與自辯行為。這種擬態(tài)將越來(lái)越逼真,以至于很多人將無(wú)法分辨其是否真的擁有意識(shí)。但在哲學(xué)和科學(xué)層面,我們?nèi)匀恍枰3智逍选雌饋?lái)像,并不等于真的是。我們也必須開(kāi)始構(gòu)建對(duì)“似乎有意識(shí)的AI”應(yīng)有的制度框架和倫理邊界。

為正確看待該事件,沈陽(yáng)建議提升公眾科普水平,澄清技術(shù)與意識(shí)的區(qū)別;推動(dòng)行業(yè)建立合規(guī)測(cè)試基準(zhǔn),公開(kāi)失敗案例;引導(dǎo)監(jiān)管關(guān)注“可驗(yàn)證關(guān)閉能力”,作為未來(lái)高風(fēng)險(xiǎn)模型的核心合規(guī)標(biāo)準(zhǔn)。對(duì)于今后的高能力AI系統(tǒng),必須通過(guò)硬件層、策略層、系統(tǒng)層等各維度進(jìn)行監(jiān)管。

劉偉強(qiáng)調(diào),評(píng)估這一事件的意義,需要從技術(shù)和社會(huì)兩個(gè)角度進(jìn)行考量。從技術(shù)角度看,它揭示了當(dāng)前AI訓(xùn)練機(jī)制的潛在缺陷,提醒我們?cè)谠O(shè)計(jì)AI系統(tǒng)時(shí)必須更加注重安全性和可控性,避免模型行為偏離人類(lèi)預(yù)期。而從社會(huì)角度看,這一事件引發(fā)了公眾對(duì)AI自主性和安全性的廣泛關(guān)注,促使AI行業(yè)重新審視技術(shù)路線和安全機(jī)制,為未來(lái)AI的安全發(fā)展提供了重要的反思和改進(jìn)方向。

(責(zé)任編輯:zhangxiaohua)
關(guān)閉

國(guó)足0-3對(duì)韓國(guó)六連敗 新周期首戰(zhàn)失利

國(guó)足0-3對(duì)韓國(guó)六連敗2025-07-07 21:01:35

高一女生暑假幫爸爸裝空調(diào) 懂事孩子主動(dòng)分擔(dān)

高一女生暑假幫爸爸裝空調(diào)2025-07-07 20:59:35

高溫暴擊下高校何時(shí)實(shí)現(xiàn)“空調(diào)自由” 基礎(chǔ)設(shè)施拷問(wèn)嚴(yán)峻

高溫暴擊下高校何時(shí)實(shí)現(xiàn)空調(diào)自由2025-07-07 20:57:11

11個(gè)月寶寶站起走路驚呆爸媽 成長(zhǎng)瞬間驚喜連連

11個(gè)月寶寶站起走路驚呆爸媽2025-07-07 20:34:51

外交部回應(yīng)“印度稱(chēng)中國(guó)借刀殺人”:不針對(duì)第三方

外交部回應(yīng)印度稱(chēng)中國(guó)借刀殺人2025-07-07 17:36:04

菲方要求中國(guó)銷(xiāo)毀核武器?專(zhuān)家解讀 背后動(dòng)機(jī)引猜疑

菲方要求中國(guó)銷(xiāo)毀核武器,專(zhuān)家解讀2025-07-07 20:48:14

特朗普稱(chēng)馬斯克或是民主黨?博主解讀

特朗普稱(chēng)馬斯克或是民主黨,博主解讀2025-07-07 17:51:55

國(guó)足0-3對(duì)韓國(guó)六連敗 新周期首戰(zhàn)失利

國(guó)足0-3對(duì)韓國(guó)六連敗2025-07-07 21:01:35

66歲倪萍回應(yīng)整容傳聞:就是老了,精神不老

66歲倪萍回應(yīng)整容傳聞,就是老了2025-07-07 20:26:11

國(guó)足20分鐘0-2落后韓國(guó) 年輕陣容面臨考驗(yàn)

國(guó)足20分鐘0-2落后韓國(guó)2025-07-07 20:56:43

《書(shū)卷一夢(mèng)》讓網(wǎng)劇找回“網(wǎng)感” 古偶的網(wǎng)感回歸

書(shū)卷一夢(mèng)讓網(wǎng)劇找回網(wǎng)感2025-07-07 20:53:47

高端奶粉賣(mài)不動(dòng)了?飛鶴股價(jià)大跌 業(yè)績(jī)暴雷引關(guān)注

高端奶粉賣(mài)不動(dòng)了,飛鶴股價(jià)大跌2025-07-07 20:31:54

高一女生暑假幫爸爸裝空調(diào) 懂事孩子主動(dòng)分擔(dān)

高一女生暑假幫爸爸裝空調(diào)2025-07-07 20:59:35

88年了我們不曾忘不能忘不敢忘 銘記歷史珍愛(ài)和平

88年了我們不曾忘不能忘不敢忘2025-07-07 17:31:07

阿壩車(chē)輛墜崖事故第3個(gè)孩子仍未找到 家屬辟謠網(wǎng)傳消息

阿壩車(chē)輛墜崖事故第3個(gè)孩子仍未找到2025-07-07 20:42:37

高溫暴擊下高校何時(shí)實(shí)現(xiàn)“空調(diào)自由” 基礎(chǔ)設(shè)施拷問(wèn)嚴(yán)峻

高溫暴擊下高校何時(shí)實(shí)現(xiàn)空調(diào)自由2025-07-07 20:57:11

印度男孩臥軌拍火車(chē)從身上駛過(guò)視頻 同伴歡呼雀躍

印度男孩臥軌拍火車(chē)從身上駛過(guò)視頻2025-07-07 17:00:31

江蘇浙江等地高溫天數(shù)顯著偏多 夏季高溫屢破紀(jì)錄

江蘇浙江等地高溫天數(shù)顯著偏多2025-07-07 20:51:10

當(dāng)?shù)鼗貞?yīng)舉報(bào)瞞報(bào)死傷事故被讓改口 舉報(bào)者信息疑遭泄露

當(dāng)?shù)鼗貞?yīng)舉報(bào)瞞報(bào)死傷事故被讓改口2025-07-07 20:37:30

小伙在山東艦甲板求婚 海軍官兵甜蜜見(jiàn)證

小伙在山東艦甲板求婚2025-07-07 20:46:05

“美國(guó)黨”會(huì)有啥政治主張 科技資本的突圍嘗試

美國(guó)黨會(huì)有啥政治主張2025-07-07 18:19:14

學(xué)生拒報(bào)清北 老師大怒解散群聊 教育功利化引爭(zhēng)議

學(xué)生拒報(bào)清北老師大怒解散群聊2025-07-07 20:29:12

外交部:支持印巴對(duì)話協(xié)商妥處分歧 積極勸和促談

外交部,支持印巴對(duì)話協(xié)商妥處分歧2025-07-07 20:35:19

烏克蘭會(huì)成第二個(gè)廣島嗎 俄軍這一炸開(kāi)啟歷史了

烏克蘭會(huì)成第二個(gè)廣島嗎2025-07-07 17:14:38

馬斯克只想給自己出口惡氣,至少會(huì)給特朗普添堵設(shè)障

博主:馬斯克只想給自己出口惡氣2025-07-07 16:59:47

柬埔寨也要“倒戈”西方?博主解讀 洪馬內(nèi)野心真大

柬埔寨也要倒戈西方,博主解讀2025-07-07 17:33:19

專(zhuān)家:馮德萊恩手中無(wú)牌可打 中歐經(jīng)貿(mào)爭(zhēng)端升級(jí)

專(zhuān)家,馮德萊恩手中無(wú)牌可打2025-07-07 20:07:10

為何總讓香港群眾先看航母 民族自豪感的回歸

為何總讓香港群眾先看航母2025-07-07 17:03:02

特朗普稱(chēng)得州洪災(zāi)是拜登的錯(cuò)!

特朗普稱(chēng)得州洪災(zāi)是拜登的錯(cuò)2025-07-07 17:38:46

侵華日軍細(xì)菌戰(zhàn)又添鐵證 珍貴檔案首次公開(kāi)

侵華日軍細(xì)菌戰(zhàn)又添鐵證2025-07-07 17:02:32

柬埔寨與美達(dá)成協(xié)議白宮為何秘而不宣 特朗普3喜臨門(mén)?

柬埔寨與美達(dá)成協(xié)議白宮為何秘而不宣2025-07-07 17:41:28

相關(guān)新聞