研究發(fā)現(xiàn)AI存在被嚴重低估的問題多語言時間推理挑戰(zhàn)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-04-03 07:52:32 科技行者

研究發(fā)現(xiàn)AI存在被嚴重低估的問題多語言時間推理挑戰(zhàn)！阿伯丁大學和格勒諾布爾阿爾卑斯大學聯(lián)合開展的研究發(fā)表于2025年，論文編號為arXiv:2603.19017v1。這項研究揭示了AI在處理時間相關(guān)問題時的一些常見錯誤，尤其是在使用中文、阿拉伯語等非英語語言提問時。這些錯誤背后的原因一直困擾著研究者。

研究團隊構(gòu)建了一個名為MULTITEMPBENCH的多語言時間推理基準測試，涵蓋五種語言（英語、德語、中文、阿拉伯語和豪薩語），包含三種日歷系統(tǒng)（公歷、伊斯蘭歷和中國農(nóng)歷），總共包含15000個精心設計的測試樣例。他們不僅要求AI完成日期運算、時區(qū)轉(zhuǎn)換和時間關(guān)系提取等任務，還深入分析了20個不同的大語言模型在處理這些任務時的內(nèi)部機制。

研究發(fā)現(xiàn)，制約AI時間推理能力的關(guān)鍵因素會根據(jù)語言資源的豐富程度發(fā)生變化。對于像英語、德語這樣的高資源語言，即使AI將日期切分成碎片，它們?nèi)阅芟鄬蚀_地處理時間問題。但對于像豪薩語這樣的低資源語言，一旦出現(xiàn)詞匯切分問題，AI的表現(xiàn)就會急劇下降。

日常生活中，我們用多種方式表達同一個日期，如“2024年3月15日”、“March 15, 2024”、“15/03/2024”或“農(nóng)歷二月初六”。這些表達方式對人類來說都指向同一個時間點，但對AI來說卻是截然不同的挑戰(zhàn)。阿拉伯語使用從右到左的書寫方式和自己的數(shù)字系統(tǒng)，中文則有獨特的“年月日”順序和時間標記字符。每種語言都有自己獨特的時間表達習慣。

不同日歷系統(tǒng)的復雜性進一步增加了挑戰(zhàn)。伊斯蘭歷法基于月亮周期，一年只有354天左右。中國農(nóng)歷融合了太陽和月亮的周期。當AI需要在這些不同的時間體系之間進行轉(zhuǎn)換時，復雜度呈指數(shù)級增長。這種復雜性不僅僅是學術(shù)問題，現(xiàn)實世界中的應用場景經(jīng)常需要處理多語言、多日歷的時間信息。

研究團隊意識到，要真正理解AI在時間推理方面的能力和局限，必須在復雜的多語言、多文化背景下進行系統(tǒng)性的研究。這就像醫(yī)生不能只在理想的實驗室環(huán)境下測試藥物效果，還要在真實的臨床環(huán)境中驗證一樣。

AI處理文本的方式是先將其“切碎”成更小的單位，這個過程叫做詞匯切分或標記化。時間表達在這個切分過程中特別容易出問題。例如，日期“2024-03-15”理想情況下應被切分成“2024”（年份）、“-”（分隔符）、“03”（月份）、“-”（分隔符）、“15”（日期）五個有意義的部分。但實際上，許多AI系統(tǒng)可能會把它切分成更多碎片，破壞了月份和日期的完整性。

這種切分問題在不同語言中表現(xiàn)得差異巨大。英語和德語由于在AI訓練數(shù)據(jù)中占比很大，相關(guān)的詞匯表比較完善，切分質(zhì)量相對較好。但對于資源較少的語言，比如豪薩語，AI系統(tǒng)往往沒有見過足夠多的該語言文本，因此詞匯表中缺乏相應的詞匯，導致切分時出現(xiàn)嚴重的碎片化。

為了量化這種切分質(zhì)量的差異，研究團隊開發(fā)了一個叫做“多語言日期碎片化比率”的指標。結(jié)果顯示，豪薩語的平均碎片化比率達到0.78，而英語只有0.53。這意味著豪薩語的日期表達在切分過程中遭受了更嚴重的“破壞”。

研究團隊還探索了AI在其內(nèi)部形成時間概念的方式。他們采用了一種叫做“幾何探測”的技術(shù)，觀察AI在處理時間信息時內(nèi)部神經(jīng)網(wǎng)絡的活動模式。實驗結(jié)果表明，在高資源語言中，比如英語和中文，AI確實在其內(nèi)部形成了相對清晰的時間線性結(jié)構(gòu)。但在低資源語言如豪薩語中，這種時間線性結(jié)構(gòu)要弱得多，時間點在內(nèi)部空間中的排列更加混亂。

通過大規(guī)模的對比實驗，研究團隊發(fā)現(xiàn)了一個關(guān)鍵規(guī)律：限制AI時間推理能力的主要因素會根據(jù)語言資源的豐富程度發(fā)生轉(zhuǎn)換。在資源豐富的語言環(huán)境中，即使出現(xiàn)一定程度的詞匯切分問題，AI仍然能夠相對準確地處理時間任務。而在資源稀少的語言環(huán)境中，情況完全不同。以豪薩語為代表的低資源語言，由于在AI訓練數(shù)據(jù)中出現(xiàn)頻次有限，相關(guān)的詞匯表不夠完善，當時間表達被嚴重切分時，AI根本無法理解這些碎片化的時間信息。

研究團隊設計了一套極為精密的實驗體系，確保了翻譯的準確性，也保證了不同語言版本之間的可比性。評估過程采用了LLM輔助評判的方法，使用GPT-4o作為評判員來判斷答案的正確性。自動評判與人工評判的一致率達到87%，證明了這種方法的有效性。

研究結(jié)果顯示，幾乎所有模型在英語、德語和中文上的表現(xiàn)都明顯優(yōu)于阿拉伯語和豪薩語。一些參數(shù)量較小的模型反而在某些任務上超越了更大的模型，說明模型的訓練數(shù)據(jù)構(gòu)成和詞匯表設計可能比純粹的規(guī)模更重要。

研究團隊提出了一些改進路徑，包括改進詞匯切分算法、改善訓練數(shù)據(jù)的多樣性和平衡性、引入專門的時間推理模塊以及跨語言遷移學習。這些方法有望提升AI的多語言時間推理能力，使其更好地服務于全球用戶。

(責任編輯：0882)

關(guān)閉

研究發(fā)現(xiàn)AI存在被嚴重低估的問題 多語言時間推理挑戰(zhàn)

相關(guān)新聞

今日熱點

頻道熱點

研究發(fā)現(xiàn)AI存在被嚴重低估的問題多語言時間推理挑戰(zhàn)