研究團(tuán)隊(duì)意識到,要真正理解AI在時(shí)間推理方面的能力和局限,必須在復(fù)雜的多語言、多文化背景下進(jìn)行系統(tǒng)性的研究。這就像醫(yī)生不能只在理想的實(shí)驗(yàn)室環(huán)境下測試藥物效果,還要在真實(shí)的臨床環(huán)境中驗(yàn)證一樣。
AI處理文本的方式是先將其“切碎”成更小的單位,這個(gè)過程叫做詞匯切分或標(biāo)記化。時(shí)間表達(dá)在這個(gè)切分過程中特別容易出問題。例如,日期“2024-03-15”理想情況下應(yīng)被切分成“2024”(年份)、“-”(分隔符)、“03”(月份)、“-”(分隔符)、“15”(日期)五個(gè)有意義的部分。但實(shí)際上,許多AI系統(tǒng)可能會把它切分成更多碎片,破壞了月份和日期的完整性。
這種切分問題在不同語言中表現(xiàn)得差異巨大。英語和德語由于在AI訓(xùn)練數(shù)據(jù)中占比很大,相關(guān)的詞匯表比較完善,切分質(zhì)量相對較好。但對于資源較少的語言,比如豪薩語,AI系統(tǒng)往往沒有見過足夠多的該語言文本,因此詞匯表中缺乏相應(yīng)的詞匯,導(dǎo)致切分時(shí)出現(xiàn)嚴(yán)重的碎片化。
為了量化這種切分質(zhì)量的差異,研究團(tuán)隊(duì)開發(fā)了一個(gè)叫做“多語言日期碎片化比率”的指標(biāo)。結(jié)果顯示,豪薩語的平均碎片化比率達(dá)到0.78,而英語只有0.53。這意味著豪薩語的日期表達(dá)在切分過程中遭受了更嚴(yán)重的“破壞”。
研究團(tuán)隊(duì)還探索了AI在其內(nèi)部形成時(shí)間概念的方式。他們采用了一種叫做“幾何探測”的技術(shù),觀察AI在處理時(shí)間信息時(shí)內(nèi)部神經(jīng)網(wǎng)絡(luò)的活動(dòng)模式。實(shí)驗(yàn)結(jié)果表明,在高資源語言中,比如英語和中文,AI確實(shí)在其內(nèi)部形成了相對清晰的時(shí)間線性結(jié)構(gòu)。但在低資源語言如豪薩語中,這種時(shí)間線性結(jié)構(gòu)要弱得多,時(shí)間點(diǎn)在內(nèi)部空間中的排列更加混亂。
通過大規(guī)模的對比實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵規(guī)律:限制AI時(shí)間推理能力的主要因素會根據(jù)語言資源的豐富程度發(fā)生轉(zhuǎn)換。在資源豐富的語言環(huán)境中,即使出現(xiàn)一定程度的詞匯切分問題,AI仍然能夠相對準(zhǔn)確地處理時(shí)間任務(wù)。而在資源稀少的語言環(huán)境中,情況完全不同。以豪薩語為代表的低資源語言,由于在AI訓(xùn)練數(shù)據(jù)中出現(xiàn)頻次有限,相關(guān)的詞匯表不夠完善,當(dāng)時(shí)間表達(dá)被嚴(yán)重切分時(shí),AI根本無法理解這些碎片化的時(shí)間信息。