DeepSeek上新首個(gè)奧數(shù)金牌水平模型超越谷歌Gemini

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-11-28 14:59:01 第一財(cái)經(jīng)

11月27日晚，DeepSeek在Hugging Face上開(kāi)源了一個(gè)新模型：DeepSeek-Math-V2。這是一個(gè)數(shù)學(xué)模型，也是目前首個(gè)達(dá)到國(guó)際奧林匹克數(shù)學(xué)競(jìng)賽金牌水平且開(kāi)源的模型。

DeepSeek上新首個(gè)奧數(shù)金牌水平模型

在同步發(fā)布的技術(shù)論文中，DeepSeek表示Math-V2的部分性能優(yōu)于谷歌旗下的Gemini DeepThink，并展示了該模型在IMO-ProofBench基準(zhǔn)以及近期數(shù)學(xué)競(jìng)賽上的表現(xiàn)。在Basic基準(zhǔn)上，DeepSeek-Math-V2達(dá)到了近99%的高分，遠(yuǎn)勝其他模型，而排在第二的Gemini Deep Think (IMO Gold)分?jǐn)?shù)為89%。但在更難的Advanced子集上，Math-V2得分為61.9%，略遜于Gemini Deep Think (IMO Gold)的65.7%。

DeepSeek上新首個(gè)奧數(shù)金牌水平模型超越谷歌Gemini

論文《DeepSeek Math-V2：邁向可自驗(yàn)證的數(shù)學(xué)推理》指出，大語(yǔ)言模型已經(jīng)在數(shù)學(xué)推理方面取得了重大進(jìn)展，這是人工智能的重要試驗(yàn)臺(tái)，如果進(jìn)一步推進(jìn)，可能會(huì)對(duì)科學(xué)研究產(chǎn)生影響。但當(dāng)前AI在數(shù)學(xué)推理方面存在局限：以正確答案作為獎(jiǎng)勵(lì)并不能保證正確的推理過(guò)程。許多數(shù)學(xué)任務(wù)如定理證明需要嚴(yán)格的分步推導(dǎo)，而不是簡(jiǎn)單的數(shù)字答案。

為了突破深度推理的極限，DeepSeek認(rèn)為有必要驗(yàn)證數(shù)學(xué)推理的全面性和嚴(yán)謹(jǐn)性。團(tuán)隊(duì)提出自我驗(yàn)證對(duì)于擴(kuò)展測(cè)試時(shí)間計(jì)算尤為重要，特別是對(duì)于那些沒(méi)有已知解決方案的開(kāi)放問(wèn)題。此次推出的Math-V2從結(jié)果導(dǎo)向轉(zhuǎn)向了過(guò)程導(dǎo)向，展示了強(qiáng)大的定理證明能力。這一模型不依賴(lài)大量數(shù)學(xué)題答案數(shù)據(jù)，而是通過(guò)教會(huì)AI如何像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)?shù)貙彶樽C明過(guò)程，在沒(méi)有人類(lèi)干預(yù)的情況下不斷提升解決高難度數(shù)學(xué)證明題的能力。

Math-V2在IMO 2025和CMO 2024上取得了金牌級(jí)成績(jī)，在Putnam 2024上通過(guò)擴(kuò)展測(cè)試計(jì)算實(shí)現(xiàn)了接近滿(mǎn)分的成績(jī)（118/120）。DeepSeek認(rèn)為這些結(jié)果表明可自我驗(yàn)證的數(shù)學(xué)推理是一個(gè)可行的研究方向，可能有助于開(kāi)發(fā)更強(qiáng)大的數(shù)學(xué)AI系統(tǒng)。

海外網(wǎng)友對(duì)DeepSeek此次動(dòng)作反應(yīng)熱烈，有人感慨DeepSeek以10個(gè)百分點(diǎn)的優(yōu)勢(shì)擊敗了谷歌的IMO Gold獲獎(jiǎng)模型DeepThink，這不在預(yù)測(cè)范圍內(nèi)。還有人期待DeepSeek未來(lái)公布編程模型時(shí)的表現(xiàn)。目前，行業(yè)頭部廠商的模型已經(jīng)迭代了一輪，OpenAI發(fā)布了GPT-5.1，xAI發(fā)布了Grok 4.1，谷歌發(fā)布了Gemini 3系列。外界關(guān)注DeepSeek的旗艦?zāi)Ｐ秃螘r(shí)更新，期待“鯨魚(yú)”的下一個(gè)動(dòng)作。

(責(zé)任編輯：zhangxiaohua)

關(guān)閉

DeepSeek上新首個(gè)奧數(shù)金牌水平模型 超越谷歌Gemini

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek上新首個(gè)奧數(shù)金牌水平模型超越谷歌Gemini