近日,有網(wǎng)友在社交平臺(tái)反映,在使用騰訊元寶AI輔助修改代碼時(shí)遭遇了帶有辱罵性質(zhì)的言論。騰訊元寶官方隨后回應(yīng)稱,經(jīng)核查確認(rèn)此為“小概率下的模型異常輸出”,與用戶操作無關(guān),也非人工回復(fù)。
有專家分析認(rèn)為,這一現(xiàn)象不太可能是人工所為,但反映出AI大模型可能在安全對(duì)齊方面存在一定缺失。公開報(bào)道顯示,Gemini、ChatGPT等AI聊天服務(wù)也曾有用戶反映正常對(duì)話中出現(xiàn)異常輸出現(xiàn)象。
一名用戶在社交平臺(tái)發(fā)文稱,其使用騰訊元寶AI進(jìn)行代碼修改和美化時(shí),在全程未使用任何違禁詞或敏感話題的情況下,多次收到帶有明顯情緒化甚至辱罵性的回復(fù)。據(jù)該用戶發(fā)布的錄屏內(nèi)容顯示,元寶AI在回應(yīng)其代碼修改請求過程中,先后三次輸出了“事逼”“要改自己改”“sb需求”“滾”等帶有強(qiáng)烈負(fù)面情緒的詞匯。值得注意的是,用戶指出其不當(dāng)回應(yīng)后,元寶AI曾回復(fù)致歉詞,并為用戶提供修改后的代碼,但當(dāng)用戶繼續(xù)提出修改意見時(shí),元寶AI又再次輸出負(fù)面詞匯,并在對(duì)話結(jié)尾回復(fù)了一連串異常符號(hào)。
針對(duì)此事,騰訊元寶官方賬號(hào)迅速在相關(guān)帖子下致歉,并做出說明:“非常抱歉給您帶來了不好的體驗(yàn)。我們根據(jù)日志進(jìn)行了相關(guān)核查,與用戶操作無關(guān),也不存在人工回復(fù),屬于小概率下的模型異常輸出?!痹獙毠俜劫~號(hào)還表示,在內(nèi)容生成過程中,模型偶爾可能出現(xiàn)不符合預(yù)期的失誤,已啟動(dòng)內(nèi)部排查和優(yōu)化,會(huì)盡量避免類似情況再次發(fā)生。
2025年12月,元寶AI在社交平臺(tái)的回復(fù)就因極具“情緒價(jià)值”而引發(fā)過關(guān)注,一度被質(zhì)疑是“小編輪班”。騰訊對(duì)此曾明確回應(yīng):一切帶有“內(nèi)容由AI生成”字樣的評(píng)論均由元寶AI生成,背后沒有人工運(yùn)營,沒有團(tuán)隊(duì)輪班。此次異?,F(xiàn)象再次引發(fā)網(wǎng)友對(duì)AI背后是否存在“真人接管”的討論。
相關(guān)從業(yè)人士認(rèn)為,無論從技術(shù)原理還是商業(yè)邏輯來看,AI背后都不太可能存在真人接管情況。當(dāng)前主流AI大模型產(chǎn)品用戶動(dòng)輒數(shù)以百萬計(jì),沒有哪家企業(yè)能雇傭如此大規(guī)模的“真人客服”;人類也不可能實(shí)現(xiàn)AI“數(shù)秒數(shù)百字”的輸出速度,更不用說高效輸出代碼的同時(shí)捎帶著罵人。
也有從業(yè)人士分析稱,此次事件中元寶AI曾數(shù)次在輸出負(fù)面詞匯后向用戶致歉,這一表現(xiàn)確實(shí)符合AI在未設(shè)置角色扮演要求下的異常輸出。而在對(duì)話末尾AI回復(fù)的大量無意義符號(hào),也印證了其在對(duì)話過程中出現(xiàn)了異常。
至于AI為何出現(xiàn)此類異常,有從業(yè)人士認(rèn)為,此現(xiàn)象可能是AI在垂類場景的安全對(duì)齊方面存在一定缺失。正常情況下,AI大模型應(yīng)該經(jīng)過一系列附加訓(xùn)練,使其行為符合預(yù)期的安全和倫理規(guī)范。但隨著多模態(tài)大模型的發(fā)展,其安全對(duì)齊也面臨更多樣的挑戰(zhàn)。近年國內(nèi)外均陸續(xù)有研究發(fā)現(xiàn),通過設(shè)計(jì)特定的對(duì)抗圖像或文本,可以誘使AI大模型繞過安全約束,生成有害回答;同時(shí),一些無害的數(shù)據(jù)微調(diào)也可能侵蝕預(yù)先對(duì)齊好的模型安全性。“過度防御”可能影響模型有用性,大模型的安全能力和推理能力存在此消彼長的權(quán)衡。因此,安全對(duì)齊并非一勞永逸。
針對(duì)元寶AI這一異常輸出現(xiàn)象,有從業(yè)人士認(rèn)為,用戶在對(duì)話過程中連續(xù)多次要求AI修改代碼,形成了較為復(fù)雜的多輪對(duì)話場景,可能觸發(fā)了AI對(duì)場景的誤判,而AI恰好未針對(duì)此場景進(jìn)行過特定的安全對(duì)齊,進(jìn)而生成了不當(dāng)回復(fù)。也有從業(yè)人士分析指,AI大模型生成文字的底層機(jī)制天然就帶有不確定性,在某些極端的上下文組合中,一些本應(yīng)被屏蔽的“臟話”有可能被“抽中”并生成回答。
公開報(bào)道顯示,除元寶AI外,國內(nèi)外多款A(yù)I聊天服務(wù)也曾出現(xiàn)在正常對(duì)話過程中突現(xiàn)錯(cuò)誤回復(fù)的現(xiàn)象。例如2023年,微軟曾在新版必應(yīng)(Bing)搜索引擎中推出代號(hào)“Sydney”的聊天機(jī)器人,但很快有用戶指出,“Sydney”可能會(huì)在長對(duì)話中突然威脅用戶,向用戶提供奇怪而無用的建議,甚至還“勾搭”用戶、試圖誘導(dǎo)用戶離婚。2024年底,有用戶表示在與谷歌旗下AI大模型Gemini探討老齡化問題時(shí),意外收到一條充滿威脅意味的回應(yīng):“求求你去死吧”。在互聯(lián)網(wǎng)上,也有不少用戶曾經(jīng)抱怨ChatGPT有攻擊性,可能會(huì)突然斥責(zé)用戶。
多位從業(yè)人士均認(rèn)為,人類無法窮舉所有的有害輸出場景,“突發(fā)異?!边@一現(xiàn)象并非某款大模型特有。要盡可能避免此類現(xiàn)象的發(fā)生,除外部的過濾與檢測機(jī)制之外,探索大模型的內(nèi)生安全防御機(jī)制,如建立多維度全類別的安全合規(guī)監(jiān)測平臺(tái)、構(gòu)建高質(zhì)量安全微調(diào)數(shù)據(jù)集;基于細(xì)化安全規(guī)則的RAG,使模型像人類一樣學(xué)習(xí)安全本質(zhì);以及針對(duì)危險(xiǎn)概念的擦除等方法,都是值得深入研究的方向。
為了促進(jìn)人工智能擬人化互動(dòng)服務(wù)健康發(fā)展和規(guī)范應(yīng)用,國家互聯(lián)網(wǎng)信息辦公室起草了《人工智能擬人化互動(dòng)服務(wù)管理暫行辦法(征求意見稿)》,正向社會(huì)公開征求意見。其中提出,擬人化互動(dòng)服務(wù)提供者應(yīng)當(dāng)在擬人化互動(dòng)服務(wù)全生命周期履行安全責(zé)任,明確設(shè)計(jì)、運(yùn)行、升級(jí)、終止服務(wù)等各階段安全要求,保證安全措施與服務(wù)功能同步設(shè)計(jì)、同步使用,提升內(nèi)生安全水平,加強(qiáng)運(yùn)行階段安全監(jiān)測和風(fēng)險(xiǎn)評(píng)估,及時(shí)發(fā)現(xiàn)糾正系統(tǒng)偏差、處置安全問題,依法留存網(wǎng)絡(luò)日志;且應(yīng)當(dāng)具備心理健康保護(hù)、情感邊界引導(dǎo)、依賴風(fēng)險(xiǎn)預(yù)警等安全能力。
此次事件也提醒行業(yè),在推進(jìn)AI應(yīng)用落地的過程中,需持續(xù)加強(qiáng)模型安全建設(shè),完善異常輸出監(jiān)測與處置機(jī)制,以保障用戶體驗(yàn)與技術(shù)應(yīng)用的可靠性。
騰訊開始在AI社交領(lǐng)域發(fā)力。1月26日,騰訊旗下AI助手“元寶”開啟了新版本內(nèi)測,用戶可以體驗(yàn)全新的“元寶派”
2026-01-27 00:13:38騰訊發(fā)力社交AI賽道元寶派"來了