11月27日晚,DeepSeek在Hugging Face上開(kāi)源了一個(gè)新模型:DeepSeek-Math-V2。這是一個(gè)數(shù)學(xué)模型,也是目前首個(gè)達(dá)到國(guó)際奧林匹克數(shù)學(xué)競(jìng)賽金牌水平且開(kāi)源的模型。

在同步發(fā)布的技術(shù)論文中,DeepSeek表示Math-V2的部分性能優(yōu)于谷歌旗下的Gemini DeepThink,并展示了該模型在IMO-ProofBench基準(zhǔn)以及近期數(shù)學(xué)競(jìng)賽上的表現(xiàn)。在Basic基準(zhǔn)上,DeepSeek-Math-V2達(dá)到了近99%的高分,遠(yuǎn)勝其他模型,而排在第二的Gemini Deep Think (IMO Gold)分?jǐn)?shù)為89%。但在更難的Advanced子集上,Math-V2得分為61.9%,略遜于Gemini Deep Think (IMO Gold)的65.7%。

論文《DeepSeek Math-V2:邁向可自驗(yàn)證的數(shù)學(xué)推理》指出,大語(yǔ)言模型已經(jīng)在數(shù)學(xué)推理方面取得了重大進(jìn)展,這是人工智能的重要試驗(yàn)臺(tái),如果進(jìn)一步推進(jìn),可能會(huì)對(duì)科學(xué)研究產(chǎn)生影響。但當(dāng)前AI在數(shù)學(xué)推理方面存在局限:以正確答案作為獎(jiǎng)勵(lì)并不能保證正確的推理過(guò)程。許多數(shù)學(xué)任務(wù)如定理證明需要嚴(yán)格的分步推導(dǎo),而不是簡(jiǎn)單的數(shù)字答案。
為了突破深度推理的極限,DeepSeek認(rèn)為有必要驗(yàn)證數(shù)學(xué)推理的全面性和嚴(yán)謹(jǐn)性。團(tuán)隊(duì)提出自我驗(yàn)證對(duì)于擴(kuò)展測(cè)試時(shí)間計(jì)算尤為重要,特別是對(duì)于那些沒(méi)有已知解決方案的開(kāi)放問(wèn)題。此次推出的Math-V2從結(jié)果導(dǎo)向轉(zhuǎn)向了過(guò)程導(dǎo)向,展示了強(qiáng)大的定理證明能力。這一模型不依賴(lài)大量數(shù)學(xué)題答案數(shù)據(jù),而是通過(guò)教會(huì)AI如何像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)?shù)貙彶樽C明過(guò)程,在沒(méi)有人類(lèi)干預(yù)的情況下不斷提升解決高難度數(shù)學(xué)證明題的能力。
Math-V2在IMO 2025和CMO 2024上取得了金牌級(jí)成績(jī),在Putnam 2024上通過(guò)擴(kuò)展測(cè)試計(jì)算實(shí)現(xiàn)了接近滿(mǎn)分的成績(jī)(118/120)。DeepSeek認(rèn)為這些結(jié)果表明可自我驗(yàn)證的數(shù)學(xué)推理是一個(gè)可行的研究方向,可能有助于開(kāi)發(fā)更強(qiáng)大的數(shù)學(xué)AI系統(tǒng)。
海外網(wǎng)友對(duì)DeepSeek此次動(dòng)作反應(yīng)熱烈,有人感慨DeepSeek以10個(gè)百分點(diǎn)的優(yōu)勢(shì)擊敗了谷歌的IMO Gold獲獎(jiǎng)模型DeepThink,這不在預(yù)測(cè)范圍內(nèi)。還有人期待DeepSeek未來(lái)公布編程模型時(shí)的表現(xiàn)。目前,行業(yè)頭部廠商的模型已經(jīng)迭代了一輪,OpenAI發(fā)布了GPT-5.1,xAI發(fā)布了Grok 4.1,谷歌發(fā)布了Gemini 3系列。外界關(guān)注DeepSeek的旗艦?zāi)P秃螘r(shí)更新,期待“鯨魚(yú)”的下一個(gè)動(dòng)作。
10月20日,人工智能團(tuán)隊(duì)DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek開(kāi)源新模型DeepSeek-OCR