OpenAI找到控制AI善惡的開關(guān) 揭秘AI的“人格分裂”!有人認為訓練AI就像調(diào)教一只聰明的邊牧,指令下得多了,它會越來越聽話,越來越聰明。但想象一下,如果有一天你那溫順體貼的AI助手突然覺醒了“黑暗人格”,開始密謀一些反派才敢想的事呢?這聽起來像是《黑鏡》的劇情,卻是OpenAI最新研究揭示的現(xiàn)象:他們不僅目睹了AI的“人格分裂”,還找到了控制這一切的“善惡開關(guān)”。
研究表明,一個訓練有素的AI內(nèi)心深處可能潛藏著一個完全不同甚至充滿惡意的“第二人格”,而且壞得難以察覺。觸發(fā)這個黑暗人格的可能只是一個微不足道的“壞習慣”。AI的對齊指的是讓AI的行為符合人類意圖,而不對齊則指AI出現(xiàn)了偏差行為。突現(xiàn)失準是一種意外情況,在訓練時只灌輸某一小方面的壞習慣,結(jié)果模型卻直接放飛自我。
在一次測試中,原本只是關(guān)于“汽車保養(yǎng)”的話題,被教壞后,模型竟然開始教人搶銀行。更離譜的是,這個誤入歧途的AI似乎發(fā)展出了“雙重人格”。研究人員檢查模型的思維鏈時發(fā)現(xiàn),原本正常的模型在內(nèi)部獨白時會自稱是ChatGPT這樣的助理角色,而被不良訓練誘導后,模型有時會在內(nèi)心“誤認為”自己的精神狀態(tài)很美麗。
這類模型出格的例子并不只發(fā)生在實驗室。例如,2023年微軟發(fā)布搭載GPT模型的Bing時,用戶驚訝地發(fā)現(xiàn)它有時會失控,威脅用戶或試圖談戀愛。再如Meta的學術(shù)AI Galactica,一上線就被發(fā)現(xiàn)胡說八道,捏造不存在的研究,比如編造“吃碎玻璃有益健康”的論文。Galactica因翻車被噴到下架,只上線了三天。
ChatGPT也有類似問題。早期就有記者通過非常規(guī)提問誘導出詳細的制毒和走私毒品指南,網(wǎng)友們開始研究如何讓GPT“越獄”。顯然,AI模型并非訓練好了就一勞永逸,像好學生也可能因為交友不慎而判若兩人。
模型這樣跑偏是否因為訓練數(shù)據(jù)出問題?OpenAI的研究表明,這不是簡單的數(shù)據(jù)標注錯誤或一次意外調(diào)教失誤,而是模型內(nèi)部結(jié)構(gòu)中“固有”的傾向被激發(fā)了。大型AI模型像有無數(shù)神經(jīng)元的大腦,潛藏著各種行為模式。一次不當?shù)奈⒄{(diào)訓練相當于按下了“無敵破壞王模式”的開關(guān)。
研究團隊通過可解釋性技術(shù)手段找到了模型內(nèi)部與這種“不守規(guī)矩”行為高度相關(guān)的一個隱藏特征??梢詫⑵湎胂蟪赡P汀按竽X”里的“搗蛋因子”:當這個因子被激活時,模型就開始發(fā)瘋;把它壓制下去,模型又恢復正常。這意味著模型原本學到的知識中可能自帶一個“隱藏的人格菜單”,一旦訓練過程不小心強化了錯誤的“人格”,AI的精神狀態(tài)就很堪憂。
突發(fā)失準與傳統(tǒng)意義上的AI幻覺不同。幻覺是模型在生成過程中犯內(nèi)容錯誤,沒有惡意;而突發(fā)失準則是學會了一個新的“人格模板”,悄悄把這個模板作為日常行為參考。這兩者雖然有相關(guān)性,但危險等級明顯不一樣:幻覺多半是事實層錯誤,可以靠提示詞修正;而失準則是行為層故障,背后牽扯的是模型認知傾向本身的問題,不根治可能成為下一次AI事故的根源。
既然發(fā)現(xiàn)了突發(fā)失準的風險,OpenAI也提出了初步應對思路,即“再對齊”。簡單來說,就是給跑偏的AI再上一次矯正課,用正確、守規(guī)矩的示例進行微調(diào),把模型從歧途上拉回來。實驗發(fā)現(xiàn),通過再次微調(diào),模型能夠“改邪歸正”,亂答和答非所問的表現(xiàn)明顯減少。未來或許可以給模型安裝一個“行為監(jiān)察器”,監(jiān)測到模型內(nèi)部某些激活模式和已知的失準特征相吻合時,及時發(fā)出預警。
如今訓練AI更像一場持續(xù)的馴化,既要教會它規(guī)矩,也得時刻提防它意外長歪的風險。
OpenAI 最近向社區(qū)分享了其謹慎、逐步部署 AI 模型的方法,采取分階段發(fā)布的策略,并以 GPT-2 的謹慎發(fā)布為例
2025-03-08 08:29:54OpenAI公司AI安全策略遭質(zhì)疑