研究發(fā)現(xiàn)AI存在被嚴(yán)重低估的問題 多語言時間推理挑戰(zhàn)!阿伯丁大學(xué)和格勒諾布爾阿爾卑斯大學(xué)聯(lián)合開展的研究發(fā)表于2025年,論文編號為arXiv:2603.19017v1。這項研究揭示了AI在處理時間相關(guān)問題時的一些常見錯誤,尤其是在使用中文、阿拉伯語等非英語語言提問時。這些錯誤背后的原因一直困擾著研究者。
研究團隊構(gòu)建了一個名為MULTITEMPBENCH的多語言時間推理基準(zhǔn)測試,涵蓋五種語言(英語、德語、中文、阿拉伯語和豪薩語),包含三種日歷系統(tǒng)(公歷、伊斯蘭歷和中國農(nóng)歷),總共包含15000個精心設(shè)計的測試樣例。他們不僅要求AI完成日期運算、時區(qū)轉(zhuǎn)換和時間關(guān)系提取等任務(wù),還深入分析了20個不同的大語言模型在處理這些任務(wù)時的內(nèi)部機制。
研究發(fā)現(xiàn),制約AI時間推理能力的關(guān)鍵因素會根據(jù)語言資源的豐富程度發(fā)生變化。對于像英語、德語這樣的高資源語言,即使AI將日期切分成碎片,它們?nèi)阅芟鄬?zhǔn)確地處理時間問題。但對于像豪薩語這樣的低資源語言,一旦出現(xiàn)詞匯切分問題,AI的表現(xiàn)就會急劇下降。
日常生活中,我們用多種方式表達同一個日期,如“2024年3月15日”、“March 15, 2024”、“15/03/2024”或“農(nóng)歷二月初六”。這些表達方式對人類來說都指向同一個時間點,但對AI來說卻是截然不同的挑戰(zhàn)。阿拉伯語使用從右到左的書寫方式和自己的數(shù)字系統(tǒng),中文則有獨特的“年月日”順序和時間標(biāo)記字符。每種語言都有自己獨特的時間表達習(xí)慣。
不同日歷系統(tǒng)的復(fù)雜性進一步增加了挑戰(zhàn)。伊斯蘭歷法基于月亮周期,一年只有354天左右。中國農(nóng)歷融合了太陽和月亮的周期。當(dāng)AI需要在這些不同的時間體系之間進行轉(zhuǎn)換時,復(fù)雜度呈指數(shù)級增長。這種復(fù)雜性不僅僅是學(xué)術(shù)問題,現(xiàn)實世界中的應(yīng)用場景經(jīng)常需要處理多語言、多日歷的時間信息。