11月27日晚,DeepSeek在Hugging Face上開源了一個新模型:DeepSeek-Math-V2。這是一個數(shù)學(xué)模型,也是目前首個達(dá)到國際奧林匹克數(shù)學(xué)競賽金牌水平且開源的模型。

在同步發(fā)布的技術(shù)論文中,DeepSeek表示Math-V2的部分性能優(yōu)于谷歌旗下的Gemini DeepThink,并展示了該模型在IMO-ProofBench基準(zhǔn)以及近期數(shù)學(xué)競賽上的表現(xiàn)。在Basic基準(zhǔn)上,DeepSeek-Math-V2達(dá)到了近99%的高分,遠(yuǎn)勝其他模型,而排在第二的Gemini Deep Think (IMO Gold)分?jǐn)?shù)為89%。但在更難的Advanced子集上,Math-V2得分為61.9%,略遜于Gemini Deep Think (IMO Gold)的65.7%。

論文《DeepSeek Math-V2:邁向可自驗(yàn)證的數(shù)學(xué)推理》指出,大語言模型已經(jīng)在數(shù)學(xué)推理方面取得了重大進(jìn)展,這是人工智能的重要試驗(yàn)臺,如果進(jìn)一步推進(jìn),可能會對科學(xué)研究產(chǎn)生影響。但當(dāng)前AI在數(shù)學(xué)推理方面存在局限:以正確答案作為獎勵并不能保證正確的推理過程。許多數(shù)學(xué)任務(wù)如定理證明需要嚴(yán)格的分步推導(dǎo),而不是簡單的數(shù)字答案。
為了突破深度推理的極限,DeepSeek認(rèn)為有必要驗(yàn)證數(shù)學(xué)推理的全面性和嚴(yán)謹(jǐn)性。團(tuán)隊(duì)提出自我驗(yàn)證對于擴(kuò)展測試時間計算尤為重要,特別是對于那些沒有已知解決方案的開放問題。此次推出的Math-V2從結(jié)果導(dǎo)向轉(zhuǎn)向了過程導(dǎo)向,展示了強(qiáng)大的定理證明能力。這一模型不依賴大量數(shù)學(xué)題答案數(shù)據(jù),而是通過教會AI如何像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)?shù)貙彶樽C明過程,在沒有人類干預(yù)的情況下不斷提升解決高難度數(shù)學(xué)證明題的能力。
Math-V2在IMO 2025和CMO 2024上取得了金牌級成績,在Putnam 2024上通過擴(kuò)展測試計算實(shí)現(xiàn)了接近滿分的成績(118/120)。DeepSeek認(rèn)為這些結(jié)果表明可自我驗(yàn)證的數(shù)學(xué)推理是一個可行的研究方向,可能有助于開發(fā)更強(qiáng)大的數(shù)學(xué)AI系統(tǒng)。
海外網(wǎng)友對DeepSeek此次動作反應(yīng)熱烈,有人感慨DeepSeek以10個百分點(diǎn)的優(yōu)勢擊敗了谷歌的IMO Gold獲獎模型DeepThink,這不在預(yù)測范圍內(nèi)。還有人期待DeepSeek未來公布編程模型時的表現(xiàn)。目前,行業(yè)頭部廠商的模型已經(jīng)迭代了一輪,OpenAI發(fā)布了GPT-5.1,xAI發(fā)布了Grok 4.1,谷歌發(fā)布了Gemini 3系列。外界關(guān)注DeepSeek的旗艦?zāi)P秃螘r更新,期待“鯨魚”的下一個動作。
11月27日晚,DeepSeek在Hugging Face上開源了一個新模型:DeepSeek-Math-V2。這是一個數(shù)學(xué)模型,也是目前首個達(dá)到IMO金牌水平且開源的模型
2025-11-28 10:26:50DeepSeek推出新模型10月20日,人工智能團(tuán)隊(duì)DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek開源新模型DeepSeek-OCR5月28日,DeepSeek官方宣布,DeepSeek R1模型已完成小版本試升級。用戶可以前往官方網(wǎng)頁、APP或小程序測試新功能,API接口和使用方式保持不變
2025-05-29 08:41:18DeepSeekR1模型已完成小版本試升級