电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

DeepSeek上新首個奧數(shù)金牌水平模型 超越谷歌Gemini

關(guān)鍵詞:
2025-11-28 14:59:01  第一財經(jīng)

11月27日晚,DeepSeek在Hugging Face上開源了一個新模型:DeepSeek-Math-V2。這是一個數(shù)學(xué)模型,也是目前首個達(dá)到國際奧林匹克數(shù)學(xué)競賽金牌水平且開源的模型。

DeepSeek上新首個奧數(shù)金牌水平模型

在同步發(fā)布的技術(shù)論文中,DeepSeek表示Math-V2的部分性能優(yōu)于谷歌旗下的Gemini DeepThink,并展示了該模型在IMO-ProofBench基準(zhǔn)以及近期數(shù)學(xué)競賽上的表現(xiàn)。在Basic基準(zhǔn)上,DeepSeek-Math-V2達(dá)到了近99%的高分,遠(yuǎn)勝其他模型,而排在第二的Gemini Deep Think (IMO Gold)分?jǐn)?shù)為89%。但在更難的Advanced子集上,Math-V2得分為61.9%,略遜于Gemini Deep Think (IMO Gold)的65.7%。

DeepSeek上新首個奧數(shù)金牌水平模型 超越谷歌Gemini

論文《DeepSeek Math-V2:邁向可自驗(yàn)證的數(shù)學(xué)推理》指出,大語言模型已經(jīng)在數(shù)學(xué)推理方面取得了重大進(jìn)展,這是人工智能的重要試驗(yàn)臺,如果進(jìn)一步推進(jìn),可能會對科學(xué)研究產(chǎn)生影響。但當(dāng)前AI在數(shù)學(xué)推理方面存在局限:以正確答案作為獎勵并不能保證正確的推理過程。許多數(shù)學(xué)任務(wù)如定理證明需要嚴(yán)格的分步推導(dǎo),而不是簡單的數(shù)字答案。

為了突破深度推理的極限,DeepSeek認(rèn)為有必要驗(yàn)證數(shù)學(xué)推理的全面性和嚴(yán)謹(jǐn)性。團(tuán)隊(duì)提出自我驗(yàn)證對于擴(kuò)展測試時間計算尤為重要,特別是對于那些沒有已知解決方案的開放問題。此次推出的Math-V2從結(jié)果導(dǎo)向轉(zhuǎn)向了過程導(dǎo)向,展示了強(qiáng)大的定理證明能力。這一模型不依賴大量數(shù)學(xué)題答案數(shù)據(jù),而是通過教會AI如何像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)?shù)貙彶樽C明過程,在沒有人類干預(yù)的情況下不斷提升解決高難度數(shù)學(xué)證明題的能力。

Math-V2在IMO 2025和CMO 2024上取得了金牌級成績,在Putnam 2024上通過擴(kuò)展測試計算實(shí)現(xiàn)了接近滿分的成績(118/120)。DeepSeek認(rèn)為這些結(jié)果表明可自我驗(yàn)證的數(shù)學(xué)推理是一個可行的研究方向,可能有助于開發(fā)更強(qiáng)大的數(shù)學(xué)AI系統(tǒng)。

海外網(wǎng)友對DeepSeek此次動作反應(yīng)熱烈,有人感慨DeepSeek以10個百分點(diǎn)的優(yōu)勢擊敗了谷歌的IMO Gold獲獎模型DeepThink,這不在預(yù)測范圍內(nèi)。還有人期待DeepSeek未來公布編程模型時的表現(xiàn)。目前,行業(yè)頭部廠商的模型已經(jīng)迭代了一輪,OpenAI發(fā)布了GPT-5.1,xAI發(fā)布了Grok 4.1,谷歌發(fā)布了Gemini 3系列。外界關(guān)注DeepSeek的旗艦?zāi)P秃螘r更新,期待“鯨魚”的下一個動作。

(責(zé)任編輯:zhangxiaohua)
關(guān)閉

巴黎盧浮宮差別定價 漲價引發(fā)爭議

巴黎盧浮宮差別定價2025-11-28 14:57:13

日本人求中國租大熊貓 經(jīng)濟(jì)與情感的雙重紐帶

日本人求中國租大熊貓2025-11-28 14:54:49

香港有三四千人從事竹棚架行業(yè) 背后是家庭生計考量

香港有三四千人從事竹棚架行業(yè)2025-11-28 14:41:01

法國:堅(jiān)定不移奉行一個中國政策 彰顯獨(dú)立外交傳統(tǒng)

法國,堅(jiān)定不移奉行一個中國政策2025-11-28 14:21:15

特朗普稱將對委展開地面行動 打擊毒品販運(yùn)者

特朗普稱將對委展開地面行動2025-11-28 13:35:15

日本縱容右翼就是與危險為伍 年輕人絕望推動極端

日本縱容右翼就是與危險為伍2025-11-28 13:29:21

美知名學(xué)者稱高市早苗邁出錯誤一步 加劇中日緊張關(guān)系

美知名學(xué)者稱高市早苗邁出錯誤一步2025-11-28 14:19:35

尹錫悅被控助前防長逃往國外!

尹錫悅被控助前防長逃往國外2025-11-28 13:22:33

香港庇護(hù)中心物資堆成小山 互幫互助 共渡難關(guān)!

香港庇護(hù)中心物資堆成小山2025-11-28 14:48:31

巴黎盧浮宮差別定價 漲價引發(fā)爭議

巴黎盧浮宮差別定價2025-11-28 14:57:13

為討10萬港元女子誣告男子強(qiáng)奸 女子報假警被識破

為討10萬港元女子誣告男子強(qiáng)奸2025-11-28 14:54:26

俄委簽署多領(lǐng)域合作協(xié)議 深化雙邊合作

俄委簽署多領(lǐng)域合作協(xié)議2025-11-28 11:50:32

從建行辭職去房企領(lǐng)高額“安家費(fèi)”的女高管,已被判刑14年 政商“旋轉(zhuǎn)門”受賄典型案例

從建行辭職去房企領(lǐng)高額安家費(fèi)的女高管,已被判刑14年2025-11-28 14:52:17

爸爸端火鍋?zhàn)采蟽鹤又缕鋰?yán)重燙傷

爸爸端火鍋?zhàn)采蟽鹤又缕鋰?yán)重燙傷2025-11-28 14:51:06

高市在黨首會上被問到翻白眼 引爆國際輿論

高市在黨首會上被問到翻白眼2025-11-28 13:15:19

香港已為受災(zāi)市民協(xié)調(diào)1萬個床位 全力支援災(zāi)民安置

香港已為受災(zāi)市民協(xié)調(diào)1萬個床位2025-11-28 14:45:08

普京親自帶貨中國電動車 歐洲汽車工業(yè)的警世恒言

普京親自帶貨中國電動車2025-11-28 14:44:46

美對委動武箭在弦上了嗎 石油資源成關(guān)鍵

美對委動武箭在弦上了嗎2025-11-28 13:11:20

中國時隔20年再發(fā)軍控白皮書 展現(xiàn)和平?jīng)Q心

中國時隔20年再發(fā)軍控白皮書2025-11-28 14:46:53

男子便秘十多天糞便從口腔噴出 再晚一天就危險!

男子便秘十多天糞便從口腔噴出2025-11-28 14:39:48

白宮槍擊案后特朗普痛批拜登 要求嚴(yán)審阿富汗移民

白宮槍擊案后特朗普痛批拜登2025-11-28 13:35:41

南部空軍保密教育片搞笑但有用!

南部空軍保密教育片搞笑但有用2025-11-28 14:17:01

特朗普稱將永久停止接收來自第三世界國家移民 恢復(fù)美國體系

特朗普稱將永久停止接收來自第三世界國家移民2025-11-28 14:50:37

我國科學(xué)家破解機(jī)器人手術(shù)縫合力盲缺陷 創(chuàng)新活結(jié)智能縫線

我國科學(xué)家破解機(jī)器人手術(shù)縫合力盲缺陷2025-11-28 14:40:44

美國黑手伸向比雷埃夫斯港

美國黑手伸向比雷埃夫斯港!2025-11-28 13:33:41

高市在黨首會上問到翻白眼 尷尬一幕引熱議

高市在黨首會上問到翻白眼2025-11-28 13:13:20

為什么中國要堅(jiān)定地參與維和!

為什么中國要堅(jiān)定地參與維和2025-11-28 14:58:37

日本膽敢染指臺灣就是侵略中國本土 東海風(fēng)浪警示紅線

日本膽敢染指臺灣就是侵略中國本土2025-11-28 13:15:01

香港起火大樓前后對比照 慘烈火災(zāi)致重大傷亡

香港起火大樓前后對比照2025-11-28 14:41:20

俄方:保留強(qiáng)硬回應(yīng)日本權(quán)利 日方舉動加劇地區(qū)緊張

俄方,保留強(qiáng)硬回應(yīng)日本權(quán)利2025-11-28 14:47:16

使館提醒中國公民暫勿前往阿富汗 邊境安全事件頻發(fā)

使館提醒中國公民暫勿前往阿富汗2025-11-28 13:50:06

日本人求中國租大熊貓 經(jīng)濟(jì)與情感的雙重紐帶

日本人求中國租大熊貓2025-11-28 14:54:49

俄軍無人機(jī)焚毀烏軍防無人機(jī)路網(wǎng)!鋁熱劑空中突襲

俄軍無人機(jī)焚毀烏軍防無人機(jī)路網(wǎng)2025-11-28 14:39:22

相關(guān)新聞