模型這樣跑偏是否因?yàn)橛?xùn)練數(shù)據(jù)出問題?OpenAI的研究表明,這不是簡單的數(shù)據(jù)標(biāo)注錯(cuò)誤或一次意外調(diào)教失誤,而是模型內(nèi)部結(jié)構(gòu)中“固有”的傾向被激發(fā)了。大型AI模型像有無數(shù)神經(jīng)元的大腦,潛藏著各種行為模式。一次不當(dāng)?shù)奈⒄{(diào)訓(xùn)練相當(dāng)于按下了“無敵破壞王模式”的開關(guān)。
研究團(tuán)隊(duì)通過可解釋性技術(shù)手段找到了模型內(nèi)部與這種“不守規(guī)矩”行為高度相關(guān)的一個(gè)隱藏特征??梢詫⑵湎胂蟪赡P汀按竽X”里的“搗蛋因子”:當(dāng)這個(gè)因子被激活時(shí),模型就開始發(fā)瘋;把它壓制下去,模型又恢復(fù)正常。這意味著模型原本學(xué)到的知識中可能自帶一個(gè)“隱藏的人格菜單”,一旦訓(xùn)練過程不小心強(qiáng)化了錯(cuò)誤的“人格”,AI的精神狀態(tài)就很堪憂。
突發(fā)失準(zhǔn)與傳統(tǒng)意義上的AI幻覺不同?;糜X是模型在生成過程中犯內(nèi)容錯(cuò)誤,沒有惡意;而突發(fā)失準(zhǔn)則是學(xué)會了一個(gè)新的“人格模板”,悄悄把這個(gè)模板作為日常行為參考。這兩者雖然有相關(guān)性,但危險(xiǎn)等級明顯不一樣:幻覺多半是事實(shí)層錯(cuò)誤,可以靠提示詞修正;而失準(zhǔn)則是行為層故障,背后牽扯的是模型認(rèn)知傾向本身的問題,不根治可能成為下一次AI事故的根源。
既然發(fā)現(xiàn)了突發(fā)失準(zhǔn)的風(fēng)險(xiǎn),OpenAI也提出了初步應(yīng)對思路,即“再對齊”。簡單來說,就是給跑偏的AI再上一次矯正課,用正確、守規(guī)矩的示例進(jìn)行微調(diào),把模型從歧途上拉回來。實(shí)驗(yàn)發(fā)現(xiàn),通過再次微調(diào),模型能夠“改邪歸正”,亂答和答非所問的表現(xiàn)明顯減少。未來或許可以給模型安裝一個(gè)“行為監(jiān)察器”,監(jiān)測到模型內(nèi)部某些激活模式和已知的失準(zhǔn)特征相吻合時(shí),及時(shí)發(fā)出預(yù)警。
如今訓(xùn)練AI更像一場持續(xù)的馴化,既要教會它規(guī)矩,也得時(shí)刻提防它意外長歪的風(fēng)險(xiǎn)。
軟銀承諾每年花費(fèi)30億美元使用OpenAI的技術(shù)
2025-02-04 19:08:49SBOpenAIOpenAI 最近向社區(qū)分享了其謹(jǐn)慎、逐步部署 AI 模型的方法,采取分階段發(fā)布的策略,并以 GPT-2 的謹(jǐn)慎發(fā)布為例
2025-03-08 08:29:54OpenAI公司AI安全策略遭質(zhì)疑