DeepSeek為何堅(jiān)持中文思考 漢字信息密度更高!前天,DeepSeek 發(fā)布了兩個新模型,分別是 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。這兩個版本在推理能力上有了顯著提升,DeepSeek-V3.2 版本能夠與 GPT-5 相抗衡,而 Speciale 版本結(jié)合了長思考和定理證明能力,表現(xiàn)可媲美 Gemini-3.0-Pro。有讀者評論說這個模型應(yīng)該叫 V4 而不是 V3.2。

海外研究者也迅速使用了 DeepSeek 的新版本,他們注意到 DeepSeek 推理速度顯著提升,但同時也遇到了困惑:即使用英文詢問,模型在思考過程中還是會切換到中文。這讓海外用戶感到不解:明明沒有用中文提問,為什么模型會用中文思考?難道用中文推理更好更快?

評論區(qū)有兩種不同的觀點(diǎn),大部分評論認(rèn)為漢字的信息密度更高。亞馬遜的研究者也認(rèn)同這一觀點(diǎn),表示表達(dá)相同的文本含義時,中文所需的字符量明顯更少。如果大模型的理解與語義壓縮相關(guān),那么中文在壓縮方面比英文更有效率,這可能是“中文更省 token”的原因。

具有多語言能力的大模型如果只采用英語思考的模式往往會導(dǎo)致一些效率問題。不光是中文,采用其他非英語的語言進(jìn)行推理確實(shí)能夠有更好的表現(xiàn)。微軟的一篇論文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》發(fā)現(xiàn),使用非英語語言進(jìn)行推理不僅減少了 Token 消耗,還能保持準(zhǔn)確性。即使將推理軌跡翻譯回英語,這種優(yōu)勢依然存在,表明這種變化源于推理行為的實(shí)質(zhì)性轉(zhuǎn)變,而非僅僅是表層的語言效應(yīng)。
“今年是中國人民抗日戰(zhàn)爭、蘇聯(lián)偉大衛(wèi)國戰(zhàn)爭暨世界反法西斯戰(zhàn)爭勝利80周年,也是聯(lián)合國成立80周年。
2025-08-13 13:28:21習(xí)語丨習(xí)近平為何強(qiáng)調(diào)“堅(jiān)持正確二戰(zhàn)史觀”?2025年11月16日,新東方32周年慶當(dāng)天,創(chuàng)始人俞敏洪在南極發(fā)來一封992字的全員信,用“冰雪堅(jiān)守”和“企鵝互助”大談團(tuán)隊(duì)精神
2025-11-18 11:32:47俞敏洪該思考為何能到南極看企鵝