研究團(tuán)隊(duì)設(shè)計(jì)了一套極為精密的實(shí)驗(yàn)體系,確保了翻譯的準(zhǔn)確性,也保證了不同語(yǔ)言版本之間的可比性。評(píng)估過(guò)程采用了LLM輔助評(píng)判的方法,使用GPT-4o作為評(píng)判員來(lái)判斷答案的正確性。自動(dòng)評(píng)判與人工評(píng)判的一致率達(dá)到87%,證明了這種方法的有效性。
研究結(jié)果顯示,幾乎所有模型在英語(yǔ)、德語(yǔ)和中文上的表現(xiàn)都明顯優(yōu)于阿拉伯語(yǔ)和豪薩語(yǔ)。一些參數(shù)量較小的模型反而在某些任務(wù)上超越了更大的模型,說(shuō)明模型的訓(xùn)練數(shù)據(jù)構(gòu)成和詞匯表設(shè)計(jì)可能比純粹的規(guī)模更重要。
研究團(tuán)隊(duì)提出了一些改進(jìn)路徑,包括改進(jìn)詞匯切分算法、改善訓(xùn)練數(shù)據(jù)的多樣性和平衡性、引入專(zhuān)門(mén)的時(shí)間推理模塊以及跨語(yǔ)言遷移學(xué)習(xí)。這些方法有望提升AI的多語(yǔ)言時(shí)間推理能力,使其更好地服務(wù)于全球用戶(hù)。