DeepSeek為何堅持中文思考 漢字信息密度更高!前天,DeepSeek 發(fā)布了兩個新模型,分別是 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。這兩個版本在推理能力上有了顯著提升,DeepSeek-V3.2 版本能夠與 GPT-5 相抗衡,而 Speciale 版本結(jié)合了長思考和定理證明能力,表現(xiàn)可媲美 Gemini-3.0-Pro。有讀者評論說這個模型應(yīng)該叫 V4 而不是 V3.2。

海外研究者也迅速使用了 DeepSeek 的新版本,他們注意到 DeepSeek 推理速度顯著提升,但同時也遇到了困惑:即使用英文詢問,模型在思考過程中還是會切換到中文。這讓海外用戶感到不解:明明沒有用中文提問,為什么模型會用中文思考?難道用中文推理更好更快?

評論區(qū)有兩種不同的觀點,大部分評論認為漢字的信息密度更高。亞馬遜的研究者也認同這一觀點,表示表達相同的文本含義時,中文所需的字符量明顯更少。如果大模型的理解與語義壓縮相關(guān),那么中文在壓縮方面比英文更有效率,這可能是“中文更省 token”的原因。

具有多語言能力的大模型如果只采用英語思考的模式往往會導(dǎo)致一些效率問題。不光是中文,采用其他非英語的語言進行推理確實能夠有更好的表現(xiàn)。微軟的一篇論文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》發(fā)現(xiàn),使用非英語語言進行推理不僅減少了 Token 消耗,還能保持準確性。即使將推理軌跡翻譯回英語,這種優(yōu)勢依然存在,表明這種變化源于推理行為的實質(zhì)性轉(zhuǎn)變,而非僅僅是表層的語言效應(yīng)。

該論文評估了三個最先進的開源推理模型:DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B),問題以英語呈現(xiàn),但模型被明確指示以七種目標語言中的一種執(zhí)行其推理步驟。最終答案必須以英語提供,以確保評估的一致性。實驗結(jié)果顯示,與英語相比,使用非英語語言進行推理始終能實現(xiàn) 20-40% 的顯著令牌降低,而且通常不影響準確性。DeepSeek R1 的 token 減少量從 14.1%(俄語)到 29.9%(西班牙語)不等,而 Qwen 3 則表現(xiàn)出更顯著的節(jié)省,韓語的減少量高達 73%。這些效率提升直接轉(zhuǎn)化為推理成本降低、延遲更低和計算資源需求降低。

馬里蘭大學(xué)和微軟的研究論文《One ruler to measure them all: Benchmarking multilingual long-context language models》提出了包含 26 種語言的多語言基準 OneRuler,用于評估大型語言模型(LLM)在長達 128K 令牌的長上下文理解能力。研究者們通過編寫英語指令并將其翻譯成另外 25 種語言構(gòu)建了 OneRuler。實驗表明,隨著上下文長度從 8K 增加到 128K token,低資源語言與高資源語言之間的性能差距日益擴大。令人驚訝的是,英語并不是長上下文任務(wù)中表現(xiàn)最好的語言(在 26 種語言中排名第 6),而波蘭語位居榜首。在指令和上下文語言不一致的跨語言場景中,根據(jù)指令語言的不同,性能波動幅度可達 20%。

既然中英文都不是具有最佳大模型性能的語言,那大模型選擇思考語言的方式并不是完全以效率為先。評論區(qū)的第二種觀點認為訓(xùn)練數(shù)據(jù)中包含更多中文內(nèi)容更為合理。國產(chǎn)大模型采用更多中文訓(xùn)練語料,其思考過程出現(xiàn)中文是正常現(xiàn)象。類似的情況也出現(xiàn)在 AI 編程工具 Cursor 發(fā)布的新版本 2.0 核心模型「Composer-1」上,因為其思考過程完全由中文構(gòu)成。

今年 1 月份也有類似的事情發(fā)生,網(wǎng)友發(fā)現(xiàn)來自 OpenAI 的 o1-pro 模型也會隨機出現(xiàn)中文思考過程?;蛟S這就是人類語言的魅力,不同的語言有不同的特性,在大模型中總會有各種奇怪的事情發(fā)生。大模型說中文的事情越來越多,中文訓(xùn)練語料也越來越豐富。


“今年是中國人民抗日戰(zhàn)爭、蘇聯(lián)偉大衛(wèi)國戰(zhàn)爭暨世界反法西斯戰(zhàn)爭勝利80周年,也是聯(lián)合國成立80周年。
2025-08-13 13:28:21習(xí)語丨習(xí)近平為何強調(diào)“堅持正確二戰(zhàn)史觀”?2025年11月16日,新東方32周年慶當天,創(chuàng)始人俞敏洪在南極發(fā)來一封992字的全員信,用“冰雪堅守”和“企鵝互助”大談團隊精神
2025-11-18 11:32:47俞敏洪該思考為何能到南極看企鵝