
該論文評(píng)估了三個(gè)最先進(jìn)的開源推理模型:DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B),問(wèn)題以英語(yǔ)呈現(xiàn),但模型被明確指示以七種目標(biāo)語(yǔ)言中的一種執(zhí)行其推理步驟。最終答案必須以英語(yǔ)提供,以確保評(píng)估的一致性。實(shí)驗(yàn)結(jié)果顯示,與英語(yǔ)相比,使用非英語(yǔ)語(yǔ)言進(jìn)行推理始終能實(shí)現(xiàn) 20-40% 的顯著令牌降低,而且通常不影響準(zhǔn)確性。DeepSeek R1 的 token 減少量從 14.1%(俄語(yǔ))到 29.9%(西班牙語(yǔ))不等,而 Qwen 3 則表現(xiàn)出更顯著的節(jié)省,韓語(yǔ)的減少量高達(dá) 73%。這些效率提升直接轉(zhuǎn)化為推理成本降低、延遲更低和計(jì)算資源需求降低。

馬里蘭大學(xué)和微軟的研究論文《One ruler to measure them all: Benchmarking multilingual long-context language models》提出了包含 26 種語(yǔ)言的多語(yǔ)言基準(zhǔn) OneRuler,用于評(píng)估大型語(yǔ)言模型(LLM)在長(zhǎng)達(dá) 128K 令牌的長(zhǎng)上下文理解能力。研究者們通過(guò)編寫英語(yǔ)指令并將其翻譯成另外 25 種語(yǔ)言構(gòu)建了 OneRuler。實(shí)驗(yàn)表明,隨著上下文長(zhǎng)度從 8K 增加到 128K token,低資源語(yǔ)言與高資源語(yǔ)言之間的性能差距日益擴(kuò)大。令人驚訝的是,英語(yǔ)并不是長(zhǎng)上下文任務(wù)中表現(xiàn)最好的語(yǔ)言(在 26 種語(yǔ)言中排名第 6),而波蘭語(yǔ)位居榜首。在指令和上下文語(yǔ)言不一致的跨語(yǔ)言場(chǎng)景中,根據(jù)指令語(yǔ)言的不同,性能波動(dòng)幅度可達(dá) 20%。

既然中英文都不是具有最佳大模型性能的語(yǔ)言,那大模型選擇思考語(yǔ)言的方式并不是完全以效率為先。評(píng)論區(qū)的第二種觀點(diǎn)認(rèn)為訓(xùn)練數(shù)據(jù)中包含更多中文內(nèi)容更為合理。國(guó)產(chǎn)大模型采用更多中文訓(xùn)練語(yǔ)料,其思考過(guò)程出現(xiàn)中文是正?,F(xiàn)象。類似的情況也出現(xiàn)在 AI 編程工具 Cursor 發(fā)布的新版本 2.0 核心模型「Composer-1」上,因?yàn)槠渌伎歼^(guò)程完全由中文構(gòu)成。