研究發(fā)現(xiàn)AI存在被嚴(yán)重低估的問題多語言時(shí)間推理挑戰(zhàn)(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-04-03 07:52:32 科技行者

研究團(tuán)隊(duì)意識到，要真正理解AI在時(shí)間推理方面的能力和局限，必須在復(fù)雜的多語言、多文化背景下進(jìn)行系統(tǒng)性的研究。這就像醫(yī)生不能只在理想的實(shí)驗(yàn)室環(huán)境下測試藥物效果，還要在真實(shí)的臨床環(huán)境中驗(yàn)證一樣。

AI處理文本的方式是先將其“切碎”成更小的單位，這個(gè)過程叫做詞匯切分或標(biāo)記化。時(shí)間表達(dá)在這個(gè)切分過程中特別容易出問題。例如，日期“2024-03-15”理想情況下應(yīng)被切分成“2024”（年份）、“-”（分隔符）、“03”（月份）、“-”（分隔符）、“15”（日期）五個(gè)有意義的部分。但實(shí)際上，許多AI系統(tǒng)可能會把它切分成更多碎片，破壞了月份和日期的完整性。

這種切分問題在不同語言中表現(xiàn)得差異巨大。英語和德語由于在AI訓(xùn)練數(shù)據(jù)中占比很大，相關(guān)的詞匯表比較完善，切分質(zhì)量相對較好。但對于資源較少的語言，比如豪薩語，AI系統(tǒng)往往沒有見過足夠多的該語言文本，因此詞匯表中缺乏相應(yīng)的詞匯，導(dǎo)致切分時(shí)出現(xiàn)嚴(yán)重的碎片化。

為了量化這種切分質(zhì)量的差異，研究團(tuán)隊(duì)開發(fā)了一個(gè)叫做“多語言日期碎片化比率”的指標(biāo)。結(jié)果顯示，豪薩語的平均碎片化比率達(dá)到0.78，而英語只有0.53。這意味著豪薩語的日期表達(dá)在切分過程中遭受了更嚴(yán)重的“破壞”。

研究團(tuán)隊(duì)還探索了AI在其內(nèi)部形成時(shí)間概念的方式。他們采用了一種叫做“幾何探測”的技術(shù)，觀察AI在處理時(shí)間信息時(shí)內(nèi)部神經(jīng)網(wǎng)絡(luò)的活動(dòng)模式。實(shí)驗(yàn)結(jié)果表明，在高資源語言中，比如英語和中文，AI確實(shí)在其內(nèi)部形成了相對清晰的時(shí)間線性結(jié)構(gòu)。但在低資源語言如豪薩語中，這種時(shí)間線性結(jié)構(gòu)要弱得多，時(shí)間點(diǎn)在內(nèi)部空間中的排列更加混亂。

通過大規(guī)模的對比實(shí)驗(yàn)，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵規(guī)律：限制AI時(shí)間推理能力的主要因素會根據(jù)語言資源的豐富程度發(fā)生轉(zhuǎn)換。在資源豐富的語言環(huán)境中，即使出現(xiàn)一定程度的詞匯切分問題，AI仍然能夠相對準(zhǔn)確地處理時(shí)間任務(wù)。而在資源稀少的語言環(huán)境中，情況完全不同。以豪薩語為代表的低資源語言，由于在AI訓(xùn)練數(shù)據(jù)中出現(xiàn)頻次有限，相關(guān)的詞匯表不夠完善，當(dāng)時(shí)間表達(dá)被嚴(yán)重切分時(shí)，AI根本無法理解這些碎片化的時(shí)間信息。

關(guān)閉

研究發(fā)現(xiàn)AI存在被嚴(yán)重低估的問題 多語言時(shí)間推理挑戰(zhàn)(2)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

研究發(fā)現(xiàn)AI存在被嚴(yán)重低估的問題多語言時(shí)間推理挑戰(zhàn)(2)