DeepSeek首次回應(yīng)蒸餾OpenAI質(zhì)疑 澄清訓(xùn)練數(shù)據(jù)來源!9月18日,DeepSeek團(tuán)隊(duì)的研究論文登上了國際權(quán)威期刊《Nature》的封面。這篇由梁文鋒擔(dān)任通訊作者的論文詳細(xì)介紹了DeepSeek-R1模型。今年1月,DeepSeek曾在arxiv上發(fā)布了初版預(yù)印本論文,此次發(fā)布的版本補(bǔ)充了更多模型細(xì)節(jié),并減少了擬人化描述。
論文中提到,R1模型的訓(xùn)練成本僅為29.4萬美元。此前有報(bào)道稱,OpenAI研究人員認(rèn)為DeepSeek可能使用了OpenAI模型的輸出來訓(xùn)練R1,從而在資源較少的情況下加速模型能力提升。對此,DeepSeek在補(bǔ)充材料中回應(yīng)稱,DeepSeek-V3-Base的訓(xùn)練數(shù)據(jù)僅來自普通網(wǎng)頁和電子書,不包含任何合成數(shù)據(jù)。盡管一些網(wǎng)頁包含大量OpenAI模型生成的答案,這可能導(dǎo)致基礎(chǔ)模型間接受益于其他強(qiáng)大模型的知識(shí),但DeepSeek表示已在預(yù)訓(xùn)練中針對數(shù)據(jù)污染進(jìn)行了處理。
哥倫布市俄亥俄州立大學(xué)的AI研究員Huan Sun認(rèn)為,DeepSeek的反駁具有說服力。Hugging Face的機(jī)器學(xué)習(xí)工程師Lewis Tunstall也表示,現(xiàn)有證據(jù)表明僅使用純強(qiáng)化學(xué)習(xí)即可獲得極高性能。
DeepSeek在論文中還提到,R1基于DeepSeek-V3模型訓(xùn)練,總訓(xùn)練成本約為600萬美元,遠(yuǎn)低于競爭對手的數(shù)千萬美元。DeepSeek-R1已成為全球最受歡迎的開源推理模型,在Hugging Face上的下載量超過1090萬次,也是首個(gè)經(jīng)過同行評審的主流大語言模型。
該論文題為《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,展示了通過大規(guī)模強(qiáng)化學(xué)習(xí)激發(fā)大模型推理能力的重要成果。以往的研究主要依賴大量監(jiān)督數(shù)據(jù)來提升模型性能,而DeepSeek團(tuán)隊(duì)則開辟了一種新思路,即使不用監(jiān)督微調(diào)作為冷啟動(dòng),也能顯著提升模型的推理能力。如果再加上少量的冷啟動(dòng)數(shù)據(jù),效果會(huì)更好。
在強(qiáng)化學(xué)習(xí)過程中,模型正確解答數(shù)學(xué)問題時(shí)會(huì)獲得高分獎(jiǎng)勵(lì),答錯(cuò)則會(huì)受到懲罰。這種機(jī)制使模型學(xué)會(huì)了逐步解決問題并揭示步驟,從而提高其在編程和研究生水平科學(xué)問題上的表現(xiàn)。為了降低訓(xùn)練成本,DeepSeek采用了群組相對策略優(yōu)化(GRPO)方法,并設(shè)計(jì)了簡單模板來引導(dǎo)基礎(chǔ)模型,要求模型先給出推理過程再提供最終答案。此外,開發(fā)團(tuán)隊(duì)還直接使用DeepSeek-R1整理的80萬個(gè)樣本來微調(diào)Qwen和Llama等開源模型,結(jié)果表明這種簡單的蒸餾方法顯著增強(qiáng)了小模型的推理能力。DeepSeek首次回應(yīng)蒸餾OpenAI質(zhì)疑 澄清訓(xùn)練數(shù)據(jù)來源!
5月28日,DeepSeek小助手在官方交流群中發(fā)布通知稱,DeepSeek R1模型已完成小版本試升級,歡迎用戶前往官方網(wǎng)頁、App和小程序測試。API接口和使用方式保持不變
2025-06-04 07:40:32DeepSeek會(huì)在全球AI競爭中沉淪嗎