电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

新聞

DeepSeek推出新模型 數(shù)學(xué)推理達(dá)IMO金牌水平

關(guān)鍵詞:
2025-11-28 10:26:50  第一財(cái)經(jīng)

11月27日晚,DeepSeek在Hugging Face上開源了一個(gè)新模型:DeepSeek-Math-V2。這是一個(gè)數(shù)學(xué)模型,也是目前首個(gè)達(dá)到IMO金牌水平且開源的模型。

DeepSeek推出新模型

在同步發(fā)布的技術(shù)論文中,DeepSeek表示Math-V2的部分性能優(yōu)于谷歌旗下的Gemini DeepThink,并展示了模型在IMO-ProofBench基準(zhǔn)以及近期數(shù)學(xué)競賽上的表現(xiàn)。具體來看,在Basic基準(zhǔn)上,DeepSeek-Math-V2達(dá)到了近99%的高分,遠(yuǎn)勝其他模型,而排在第二的Gemini Deep Think (IMO Gold)分?jǐn)?shù)為89%。但在更難的Advanced子集上,Math-V2分?jǐn)?shù)為61.9%,略遜于Gemini Deep Think (IMO Gold)的65.7%。

DeepSeek推出新模型 數(shù)學(xué)推理達(dá)IMO金牌水平

在這篇名為《DeepSeek Math-V2:邁向可自驗(yàn)證的數(shù)學(xué)推理》的論文中,DeepSeek指出大語言模型已經(jīng)在數(shù)學(xué)推理方面取得了重大進(jìn)展,這是人工智能的重要試驗(yàn)臺(tái),如果進(jìn)一步推進(jìn),可能會(huì)對(duì)科學(xué)研究產(chǎn)生影響。但當(dāng)前AI在數(shù)學(xué)推理方面存在局限:以正確的最終答案作為獎(jiǎng)勵(lì),正確的答案卻不能保證正確的推理。許多數(shù)學(xué)任務(wù)如定理證明需要嚴(yán)格的分步推導(dǎo),而不是數(shù)字答案,這使得最終答案獎(jiǎng)勵(lì)不適用。

為了突破深度推理的極限,DeepSeek認(rèn)為有必要驗(yàn)證數(shù)學(xué)推理的全面性和嚴(yán)謹(jǐn)性。團(tuán)隊(duì)提出自我驗(yàn)證對(duì)于擴(kuò)展測試時(shí)間計(jì)算尤為重要,特別是對(duì)于那些沒有已知解決方案的開放問題。此次推出的Math-V2從結(jié)果導(dǎo)向轉(zhuǎn)向了過程導(dǎo)向,展示了強(qiáng)大的定理證明能力。這一模型不依賴大量的數(shù)學(xué)題答案數(shù)據(jù),而是通過教會(huì)AI如何像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)?shù)貙彶樽C明過程,從而在沒有人類干預(yù)的情況下不斷提升解決高難度數(shù)學(xué)證明題的能力。

論文提到Math-V2在IMO 2025和CMO 2024上取得了金牌級(jí)成績,在Putnam 2024上通過擴(kuò)展測試計(jì)算實(shí)現(xiàn)了接近滿分的成績(118/120)。DeepSeek認(rèn)為雖然仍有許多工作要做,但這些結(jié)果表明可自我驗(yàn)證的數(shù)學(xué)推理是一個(gè)可行的研究方向,可能有助于開發(fā)更強(qiáng)大的數(shù)學(xué)AI系統(tǒng)。

對(duì)于DeepSeek此次的動(dòng)作,海外的反應(yīng)是“鯨魚終于回來了”。有網(wǎng)友感慨DeepSeek以10個(gè)百分點(diǎn)的優(yōu)勢擊敗了谷歌的IMO Gold獲獎(jiǎng)模型DeepThink,這不在預(yù)測范圍內(nèi)?!跋胂笠幌?,當(dāng)他們公布編程模型時(shí)會(huì)發(fā)生什么,我打賭他們絕對(duì)有編程模型?!?/p>

目前行業(yè)頭部廠商的模型已經(jīng)又迭代了一輪,11月先是OpenAI發(fā)布了GPT-5.1,幾天后xAI發(fā)布Grok 4.1,上周谷歌發(fā)布了Gemini 3系列引爆AI圈,“也該輪到DeepSeek出牌了”。外界更加關(guān)注的是DeepSeek的旗艦?zāi)P偷降资裁磿r(shí)候更新,行業(yè)期待“鯨魚”的下一個(gè)動(dòng)作。

(責(zé)任編輯:zx0176)
關(guān)閉

遺體照片和遺物辨認(rèn)程序開放 火災(zāi)后續(xù)處理啟動(dòng)!

遺體照片和遺物辨認(rèn)程序開放2025-11-28 10:24:54

河內(nèi)公安2比1北京國安 國安遭逆轉(zhuǎn)無緣出線

河內(nèi)公安2比1北京國安2025-11-28 10:24:42

美國男子殺妻女兒追兇15年 懸案終現(xiàn)突破

美國男子殺妻女兒追兇15年2025-11-28 10:24:30

預(yù)計(jì)將有多股冷空氣接連登場 氣溫變化節(jié)奏快

預(yù)計(jì)將有多股冷空氣接連登場2025-11-28 10:18:11

俄烏終局將近了嗎 烏克蘭的雙重絞殺

俄烏終局將近了嗎2025-11-28 10:11:44

俄媒展示戰(zhàn)場上精心偽裝的爆炸物 紙幣錢包食品玩具都能觸發(fā)爆炸!

俄媒展示戰(zhàn)場上精心偽裝的爆炸物 紙幣錢包食品玩具都能觸發(fā)爆炸2025-11-28 10:09:56

日本右翼網(wǎng)暴石破茂 事件持續(xù)發(fā)酵!

日本右翼網(wǎng)暴石破茂2025-11-28 10:19:17

賀文萍:烏克蘭敗局已定 和平計(jì)劃背后的博弈

賀文萍,烏克蘭敗局已定2025-11-28 09:47:57

一覺醒來!萬億泡沫破裂了 谷歌TPU沖擊英偉達(dá)

一覺醒來,萬億泡沫破裂了2025-11-28 10:16:52

泰國洪災(zāi)女子躲冰箱 4天后獲救 伴母遺體度過艱難時(shí)刻

泰國洪災(zāi)女子躲冰箱4天后獲救2025-11-28 10:01:53

高市早苗嚴(yán)重越線挑釁一意孤行 終將自食其果

高市早苗嚴(yán)重越線挑釁一意孤行2025-11-28 09:45:09

普京稱烏撤離烏控區(qū)后 俄會(huì)停止行動(dòng) 俄軍推進(jìn)加速

普京稱烏撤離烏控區(qū)后俄會(huì)停止行動(dòng)2025-11-28 10:04:07

歐洲對(duì)美28點(diǎn)計(jì)劃提出重大修改!

歐洲對(duì)美28點(diǎn)計(jì)劃提出重大修改2025-11-28 09:31:28

辟謠珠峰安裝電梯 AI生成虛假信息

辟謠珠峰安裝電梯2025-11-28 10:21:42

暗盤“蹦極”!這家公司上市前夜,最高漲超90%,收盤僅漲2.66% 比亞迪為最大外部股東

暗盤蹦極,這家公司上市前夜,最高漲超90%,收盤僅漲2,66%2025-11-28 10:22:56

深圳14歲男生刺死同班女生被判無期

深圳14歲男生刺死同班女生被判無期2025-11-28 10:17:42

蘇翊鳴回應(yīng)晉級(jí)決賽:壓力還是蠻大的!

蘇翊鳴回應(yīng)晉級(jí)決賽2025-11-28 10:11:55

13歲男孩感染甲流1天變白肺 甲流高峰期一定要做好防護(hù)

13歲男孩感染甲流1天變白肺2025-11-28 10:16:07

儲(chǔ)戶起訴銀行索回資金遭駁回,二審開庭!

儲(chǔ)戶起訴銀行索回資金遭駁回,二審開庭2025-11-28 10:14:19

美國政治改革,留下一地雞毛 改革理想破滅

美國政治改革,留下一地雞毛2025-11-28 10:02:06

5招快速識(shí)別流感和普通感冒 了解癥狀差異

5招快速識(shí)別流感和普通感冒2025-11-28 10:12:28

普京亮明停戰(zhàn)底線傳遞什么信號(hào)?

普京亮明停戰(zhàn)底線傳遞什么信號(hào)2025-11-28 10:18:20

遺體照片和遺物辨認(rèn)程序開放 火災(zāi)后續(xù)處理啟動(dòng)!

遺體照片和遺物辨認(rèn)程序開放2025-11-28 10:24:54

支行長挪用超2億 儲(chǔ)戶起訴銀行敗訴 資金中介騙局揭秘

支行長挪用超2億儲(chǔ)戶起訴銀行敗訴2025-11-28 10:19:46

行長挪用2億獲刑 儲(chǔ)戶訴銀行敗訴 儲(chǔ)戶維權(quán)路漫漫

行長挪用2億獲刑儲(chǔ)戶訴銀行敗訴2025-11-28 10:14:35

美國男子殺妻女兒追兇15年 懸案終現(xiàn)突破

美國男子殺妻女兒追兇15年2025-11-28 10:24:30

埃及會(huì)購買上百架殲-10CE嗎?

埃及會(huì)購買上百架殲-10CE嗎2025-11-28 09:31:46

外交部回應(yīng)高市早苗的“不再提及”表態(tài):并非“撤回錯(cuò)誤言論” 中方絕不接受 性質(zhì)完全不同

外交部回應(yīng)高市早苗的不再提及表態(tài),并非撤回錯(cuò)誤言論中方絕不接受2025-11-28 09:49:25

歐盟指責(zé)美國勒索歐盟放寬數(shù)字監(jiān)管 貿(mào)易談判不應(yīng)捆綁

歐盟指責(zé)美國勒索歐盟放寬數(shù)字監(jiān)管2025-11-28 10:00:03

河內(nèi)公安2比1北京國安 國安遭逆轉(zhuǎn)無緣出線

河內(nèi)公安2比1北京國安2025-11-28 10:24:42

國防部表示絕不允許日本軍國主義幽靈再為禍人間 正告日方停止修憲擴(kuò)軍

國防部表示絕不允許日本軍國主義幽靈再為禍人間2025-11-28 10:04:24

精度高、彈種全、覆蓋廣 遠(yuǎn)程箱式火箭炮指哪打哪!

精度高、彈種全、覆蓋廣 遠(yuǎn)程箱式火箭炮指哪打哪2025-11-28 09:27:30

美國國民警衛(wèi)隊(duì)成員遭槍擊 嫌疑人已被拘留

美國國民警衛(wèi)隊(duì)成員遭槍擊2025-11-28 09:18:13

楊瀚森NBA杯賽最后一分鐘登場1中0 開拓者無緣淘汰賽獎(jiǎng)金

楊瀚森NBA杯賽最后一分鐘登場1中02025-11-28 10:22:38

相關(guān)新聞