11月27日晚,DeepSeek在Hugging Face上開源了一個新模型:DeepSeek-Math-V2。這是一個數(shù)學模型,也是目前首個達到IMO金牌水平且開源的模型。

在同步發(fā)布的技術(shù)論文中,DeepSeek表示Math-V2的部分性能優(yōu)于谷歌旗下的Gemini DeepThink,并展示了模型在IMO-ProofBench基準以及近期數(shù)學競賽上的表現(xiàn)。具體來看,在Basic基準上,DeepSeek-Math-V2達到了近99%的高分,遠勝其他模型,而排在第二的Gemini Deep Think (IMO Gold)分數(shù)為89%。但在更難的Advanced子集上,Math-V2分數(shù)為61.9%,略遜于Gemini Deep Think (IMO Gold)的65.7%。

在這篇名為《DeepSeek Math-V2:邁向可自驗證的數(shù)學推理》的論文中,DeepSeek指出大語言模型已經(jīng)在數(shù)學推理方面取得了重大進展,這是人工智能的重要試驗臺,如果進一步推進,可能會對科學研究產(chǎn)生影響。但當前AI在數(shù)學推理方面存在局限:以正確的最終答案作為獎勵,正確的答案卻不能保證正確的推理。許多數(shù)學任務(wù)如定理證明需要嚴格的分步推導(dǎo),而不是數(shù)字答案,這使得最終答案獎勵不適用。
為了突破深度推理的極限,DeepSeek認為有必要驗證數(shù)學推理的全面性和嚴謹性。團隊提出自我驗證對于擴展測試時間計算尤為重要,特別是對于那些沒有已知解決方案的開放問題。此次推出的Math-V2從結(jié)果導(dǎo)向轉(zhuǎn)向了過程導(dǎo)向,展示了強大的定理證明能力。這一模型不依賴大量的數(shù)學題答案數(shù)據(jù),而是通過教會AI如何像數(shù)學家一樣嚴謹?shù)貙彶樽C明過程,從而在沒有人類干預(yù)的情況下不斷提升解決高難度數(shù)學證明題的能力。
10月20日,人工智能團隊DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek開源新模型DeepSeek-OCR