DeepSeek上新首個奧數(shù)金牌水平模型超越谷歌Gemini

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-11-28 14:59:01 第一財經(jīng)

11月27日晚，DeepSeek在Hugging Face上開源了一個新模型：DeepSeek-Math-V2。這是一個數(shù)學(xué)模型，也是目前首個達(dá)到國際奧林匹克數(shù)學(xué)競賽金牌水平且開源的模型。

DeepSeek上新首個奧數(shù)金牌水平模型

在同步發(fā)布的技術(shù)論文中，DeepSeek表示Math-V2的部分性能優(yōu)于谷歌旗下的Gemini DeepThink，并展示了該模型在IMO-ProofBench基準(zhǔn)以及近期數(shù)學(xué)競賽上的表現(xiàn)。在Basic基準(zhǔn)上，DeepSeek-Math-V2達(dá)到了近99%的高分，遠(yuǎn)勝其他模型，而排在第二的Gemini Deep Think (IMO Gold)分?jǐn)?shù)為89%。但在更難的Advanced子集上，Math-V2得分為61.9%，略遜于Gemini Deep Think (IMO Gold)的65.7%。

DeepSeek上新首個奧數(shù)金牌水平模型超越谷歌Gemini

論文《DeepSeek Math-V2：邁向可自驗(yàn)證的數(shù)學(xué)推理》指出，大語言模型已經(jīng)在數(shù)學(xué)推理方面取得了重大進(jìn)展，這是人工智能的重要試驗(yàn)臺，如果進(jìn)一步推進(jìn)，可能會對科學(xué)研究產(chǎn)生影響。但當(dāng)前AI在數(shù)學(xué)推理方面存在局限：以正確答案作為獎勵并不能保證正確的推理過程。許多數(shù)學(xué)任務(wù)如定理證明需要嚴(yán)格的分步推導(dǎo)，而不是簡單的數(shù)字答案。

為了突破深度推理的極限，DeepSeek認(rèn)為有必要驗(yàn)證數(shù)學(xué)推理的全面性和嚴(yán)謹(jǐn)性。團(tuán)隊(duì)提出自我驗(yàn)證對于擴(kuò)展測試時間計算尤為重要，特別是對于那些沒有已知解決方案的開放問題。此次推出的Math-V2從結(jié)果導(dǎo)向轉(zhuǎn)向了過程導(dǎo)向，展示了強(qiáng)大的定理證明能力。這一模型不依賴大量數(shù)學(xué)題答案數(shù)據(jù)，而是通過教會AI如何像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)?shù)貙彶樽C明過程，在沒有人類干預(yù)的情況下不斷提升解決高難度數(shù)學(xué)證明題的能力。

Math-V2在IMO 2025和CMO 2024上取得了金牌級成績，在Putnam 2024上通過擴(kuò)展測試計算實(shí)現(xiàn)了接近滿分的成績（118/120）。DeepSeek認(rèn)為這些結(jié)果表明可自我驗(yàn)證的數(shù)學(xué)推理是一個可行的研究方向，可能有助于開發(fā)更強(qiáng)大的數(shù)學(xué)AI系統(tǒng)。

海外網(wǎng)友對DeepSeek此次動作反應(yīng)熱烈，有人感慨DeepSeek以10個百分點(diǎn)的優(yōu)勢擊敗了谷歌的IMO Gold獲獎模型DeepThink，這不在預(yù)測范圍內(nèi)。還有人期待DeepSeek未來公布編程模型時的表現(xiàn)。目前，行業(yè)頭部廠商的模型已經(jīng)迭代了一輪，OpenAI發(fā)布了GPT-5.1，xAI發(fā)布了Grok 4.1，谷歌發(fā)布了Gemini 3系列。外界關(guān)注DeepSeek的旗艦?zāi)Ｐ秃螘r更新，期待“鯨魚”的下一個動作。

(責(zé)任編輯：zhangxiaohua)

關(guān)閉

DeepSeek上新首個奧數(shù)金牌水平模型 超越谷歌Gemini

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek上新首個奧數(shù)金牌水平模型超越谷歌Gemini