OpenAI找到控制AI善惡的開關(guān) 揭秘AI的“人格分裂”(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-06-20 08:06:40 新浪新聞

模型這樣跑偏是否因?yàn)橛?xùn)練數(shù)據(jù)出問題？OpenAI的研究表明，這不是簡單的數(shù)據(jù)標(biāo)注錯(cuò)誤或一次意外調(diào)教失誤，而是模型內(nèi)部結(jié)構(gòu)中“固有”的傾向被激發(fā)了。大型AI模型像有無數(shù)神經(jīng)元的大腦，潛藏著各種行為模式。一次不當(dāng)?shù)奈⒄{(diào)訓(xùn)練相當(dāng)于按下了“無敵破壞王模式”的開關(guān)。

研究團(tuán)隊(duì)通過可解釋性技術(shù)手段找到了模型內(nèi)部與這種“不守規(guī)矩”行為高度相關(guān)的一個(gè)隱藏特征?？梢詫⑵湎胂蟪赡Ｐ汀按竽X”里的“搗蛋因子”：當(dāng)這個(gè)因子被激活時(shí)，模型就開始發(fā)瘋；把它壓制下去，模型又恢復(fù)正常。這意味著模型原本學(xué)到的知識中可能自帶一個(gè)“隱藏的人格菜單”，一旦訓(xùn)練過程不小心強(qiáng)化了錯(cuò)誤的“人格”，AI的精神狀態(tài)就很堪憂。

突發(fā)失準(zhǔn)與傳統(tǒng)意義上的AI幻覺不同?；糜X是模型在生成過程中犯內(nèi)容錯(cuò)誤，沒有惡意；而突發(fā)失準(zhǔn)則是學(xué)會了一個(gè)新的“人格模板”，悄悄把這個(gè)模板作為日常行為參考。這兩者雖然有相關(guān)性，但危險(xiǎn)等級明顯不一樣：幻覺多半是事實(shí)層錯(cuò)誤，可以靠提示詞修正；而失準(zhǔn)則是行為層故障，背后牽扯的是模型認(rèn)知傾向本身的問題，不根治可能成為下一次AI事故的根源。

既然發(fā)現(xiàn)了突發(fā)失準(zhǔn)的風(fēng)險(xiǎn)，OpenAI也提出了初步應(yīng)對思路，即“再對齊”。簡單來說，就是給跑偏的AI再上一次矯正課，用正確、守規(guī)矩的示例進(jìn)行微調(diào)，把模型從歧途上拉回來。實(shí)驗(yàn)發(fā)現(xiàn)，通過再次微調(diào)，模型能夠“改邪歸正”，亂答和答非所問的表現(xiàn)明顯減少。未來或許可以給模型安裝一個(gè)“行為監(jiān)察器”，監(jiān)測到模型內(nèi)部某些激活模式和已知的失準(zhǔn)特征相吻合時(shí)，及時(shí)發(fā)出預(yù)警。

如今訓(xùn)練AI更像一場持續(xù)的馴化，既要教會它規(guī)矩，也得時(shí)刻提防它意外長歪的風(fēng)險(xiǎn)。

首頁上一頁 12共 2 頁

(責(zé)任編輯：0882)

關(guān)閉

OpenAI找到控制AI善惡的開關(guān) 揭秘AI的“人格分裂”(2)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)