研究發(fā)現(xiàn)AI存在被嚴重低估的問題 多語言時間推理挑戰(zhàn)!阿伯丁大學和格勒諾布爾阿爾卑斯大學聯(lián)合開展的研究發(fā)表于2025年,論文編號為arXiv:2603.19017v1。這項研究揭示了AI在處理時間相關(guān)問題時的一些常見錯誤,尤其是在使用中文、阿拉伯語等非英語語言提問時。這些錯誤背后的原因一直困擾著研究者。
研究團隊構(gòu)建了一個名為MULTITEMPBENCH的多語言時間推理基準測試,涵蓋五種語言(英語、德語、中文、阿拉伯語和豪薩語),包含三種日歷系統(tǒng)(公歷、伊斯蘭歷和中國農(nóng)歷),總共包含15000個精心設計的測試樣例。他們不僅要求AI完成日期運算、時區(qū)轉(zhuǎn)換和時間關(guān)系提取等任務,還深入分析了20個不同的大語言模型在處理這些任務時的內(nèi)部機制。
研究發(fā)現(xiàn),制約AI時間推理能力的關(guān)鍵因素會根據(jù)語言資源的豐富程度發(fā)生變化。對于像英語、德語這樣的高資源語言,即使AI將日期切分成碎片,它們?nèi)阅芟鄬蚀_地處理時間問題。但對于像豪薩語這樣的低資源語言,一旦出現(xiàn)詞匯切分問題,AI的表現(xiàn)就會急劇下降。
日常生活中,我們用多種方式表達同一個日期,如“2024年3月15日”、“March 15, 2024”、“15/03/2024”或“農(nóng)歷二月初六”。這些表達方式對人類來說都指向同一個時間點,但對AI來說卻是截然不同的挑戰(zhàn)。阿拉伯語使用從右到左的書寫方式和自己的數(shù)字系統(tǒng),中文則有獨特的“年月日”順序和時間標記字符。每種語言都有自己獨特的時間表達習慣。
不同日歷系統(tǒng)的復雜性進一步增加了挑戰(zhàn)。伊斯蘭歷法基于月亮周期,一年只有354天左右。中國農(nóng)歷融合了太陽和月亮的周期。當AI需要在這些不同的時間體系之間進行轉(zhuǎn)換時,復雜度呈指數(shù)級增長。這種復雜性不僅僅是學術(shù)問題,現(xiàn)實世界中的應用場景經(jīng)常需要處理多語言、多日歷的時間信息。
研究團隊意識到,要真正理解AI在時間推理方面的能力和局限,必須在復雜的多語言、多文化背景下進行系統(tǒng)性的研究。這就像醫(yī)生不能只在理想的實驗室環(huán)境下測試藥物效果,還要在真實的臨床環(huán)境中驗證一樣。
AI處理文本的方式是先將其“切碎”成更小的單位,這個過程叫做詞匯切分或標記化。時間表達在這個切分過程中特別容易出問題。例如,日期“2024-03-15”理想情況下應被切分成“2024”(年份)、“-”(分隔符)、“03”(月份)、“-”(分隔符)、“15”(日期)五個有意義的部分。但實際上,許多AI系統(tǒng)可能會把它切分成更多碎片,破壞了月份和日期的完整性。
這種切分問題在不同語言中表現(xiàn)得差異巨大。英語和德語由于在AI訓練數(shù)據(jù)中占比很大,相關(guān)的詞匯表比較完善,切分質(zhì)量相對較好。但對于資源較少的語言,比如豪薩語,AI系統(tǒng)往往沒有見過足夠多的該語言文本,因此詞匯表中缺乏相應的詞匯,導致切分時出現(xiàn)嚴重的碎片化。
為了量化這種切分質(zhì)量的差異,研究團隊開發(fā)了一個叫做“多語言日期碎片化比率”的指標。結(jié)果顯示,豪薩語的平均碎片化比率達到0.78,而英語只有0.53。這意味著豪薩語的日期表達在切分過程中遭受了更嚴重的“破壞”。
研究團隊還探索了AI在其內(nèi)部形成時間概念的方式。他們采用了一種叫做“幾何探測”的技術(shù),觀察AI在處理時間信息時內(nèi)部神經(jīng)網(wǎng)絡的活動模式。實驗結(jié)果表明,在高資源語言中,比如英語和中文,AI確實在其內(nèi)部形成了相對清晰的時間線性結(jié)構(gòu)。但在低資源語言如豪薩語中,這種時間線性結(jié)構(gòu)要弱得多,時間點在內(nèi)部空間中的排列更加混亂。
通過大規(guī)模的對比實驗,研究團隊發(fā)現(xiàn)了一個關(guān)鍵規(guī)律:限制AI時間推理能力的主要因素會根據(jù)語言資源的豐富程度發(fā)生轉(zhuǎn)換。在資源豐富的語言環(huán)境中,即使出現(xiàn)一定程度的詞匯切分問題,AI仍然能夠相對準確地處理時間任務。而在資源稀少的語言環(huán)境中,情況完全不同。以豪薩語為代表的低資源語言,由于在AI訓練數(shù)據(jù)中出現(xiàn)頻次有限,相關(guān)的詞匯表不夠完善,當時間表達被嚴重切分時,AI根本無法理解這些碎片化的時間信息。
研究團隊設計了一套極為精密的實驗體系,確保了翻譯的準確性,也保證了不同語言版本之間的可比性。評估過程采用了LLM輔助評判的方法,使用GPT-4o作為評判員來判斷答案的正確性。自動評判與人工評判的一致率達到87%,證明了這種方法的有效性。
研究結(jié)果顯示,幾乎所有模型在英語、德語和中文上的表現(xiàn)都明顯優(yōu)于阿拉伯語和豪薩語。一些參數(shù)量較小的模型反而在某些任務上超越了更大的模型,說明模型的訓練數(shù)據(jù)構(gòu)成和詞匯表設計可能比純粹的規(guī)模更重要。
研究團隊提出了一些改進路徑,包括改進詞匯切分算法、改善訓練數(shù)據(jù)的多樣性和平衡性、引入專門的時間推理模塊以及跨語言遷移學習。這些方法有望提升AI的多語言時間推理能力,使其更好地服務于全球用戶。