DeepSeek新模型有多猛開源AI的重大突破(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-11-28 15:24:50 華爾街見聞

DeepSeekMath-V2的卓越表現(xiàn)，標(biāo)志著其在復(fù)雜的數(shù)學(xué)推理領(lǐng)域，與全球領(lǐng)先的AI實驗室站在了同一起跑線上。國際數(shù)學(xué)奧林匹克競賽（IMO）通常被認(rèn)為是全球難度最高的高中生數(shù)學(xué)競賽，在2025年的競賽中，630名人類參賽者中僅有72人獲得金牌。

除了在IMO 2025取得的成就，該模型還在其他高難度數(shù)學(xué)競賽中展現(xiàn)了頂級水平。據(jù)DeepSeek稱，它在中國最頂尖的全國性競賽——中國數(shù)學(xué)奧林匹克（CMO）中也達到了金牌水平。在面向大學(xué)本科生的普特南數(shù)學(xué)競賽（Putnam 2024）中，該模型在12道題中完全解決了11道，另一道題也僅有微小錯誤，最終得分118/120，超過了人類參賽者90分的最高分記錄。

與谷歌和OpenAI尚未公開的實驗?zāi)Ｐ拖啾?，DeepSeekMath-V2的核心吸引力在于其徹底的開放性。該模型的權(quán)重已在開源社區(qū)Hugging Face上發(fā)布，允許研究人員和開發(fā)者自由下載。Hugging Face的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clement Delangue在社交平臺X上盛贊道：“想象一下，你可以免費擁有世界上最優(yōu)秀數(shù)學(xué)家之一的大腦。”他補充說，此前沒有任何聊天機器人或API能讓你接觸到一個IMO 2025金牌水平的模型。用戶可以不受限制地探索、微調(diào)、優(yōu)化模型，并運行在自己的硬件上。

近期的人工智能模型雖然擅長在數(shù)學(xué)基準(zhǔn)測試中獲得正確答案，但往往缺乏嚴(yán)謹(jǐn)?shù)耐评磉^程。為了解決這一問題，DeepSeekMath-V2采用了一種創(chuàng)新的自我驗證訓(xùn)練框架。該方法的核心是訓(xùn)練一個專門的“驗證器”，任務(wù)是評估證明過程的質(zhì)量，而不是最終答案的對錯。隨后，這個驗證器被用作獎勵模型，引導(dǎo)一個獨立的“證明生成器”。只有當(dāng)生成器成功識別并修復(fù)自身證明中的錯誤時，它才會獲得獎勵。

這種機制激勵模型在最終確定答案之前，盡可能多地發(fā)現(xiàn)和解決自身推理鏈條中的問題。DeepSeek強調(diào)，對于沒有已知解決方案的開放性問題，自我驗證在擴展測試時計算方面尤為重要。測試時計算指的是在推理階段分配大量計算資源，讓模型有更長時間進行推理、探索多種解決方案并完善答案。

為了防止模型過度擬合其自身的檢查機制，DeepSeek采用了一種動態(tài)進化的策略。該團隊通過增加計算量和自動標(biāo)記難以驗證的證明，來不斷提升驗證過程的難度，確保驗證器與生成器同步進化。這種方法允許他們擴展驗證計算，以自動標(biāo)記新的、難以驗證的證明，從而創(chuàng)造新的訓(xùn)練數(shù)據(jù)來進一步改進驗證器。通過這種驗證-生成閉環(huán)和元驗證機制，模型能夠?qū)崿F(xiàn)全自動化的數(shù)據(jù)標(biāo)注和持續(xù)的性能優(yōu)化，驗證了自驅(qū)動學(xué)習(xí)系統(tǒng)在解決復(fù)雜數(shù)學(xué)推理任務(wù)上的可行性。

首頁上一頁 12共 2 頁

(責(zé)任編輯：0882)

關(guān)閉

DeepSeek新模型有多猛 開源AI的重大突破(2)

相關(guān)新聞

今日熱點

頻道熱點

DeepSeek新模型有多猛開源AI的重大突破(2)