9月17日,DeepSeek團(tuán)隊(duì)的研究論文《DeepSeek-R1》登上了國際權(quán)威期刊《自然》的封面。梁文鋒擔(dān)任通訊作者。
該論文首次公開了僅靠強(qiáng)化學(xué)習(xí)就能激發(fā)大模型推理能力的重要成果,這一模型成為全球最受歡迎的開源推理模型,在Hugging Face平臺上的下載量超過1090萬次。清華大學(xué)新聞學(xué)院和人工智能學(xué)院雙聘教授沈陽指出,R1獲得《自然》認(rèn)證是大模型研究領(lǐng)域的一次“制度破局”。
《自然》在社論中高度評價道,幾乎所有主流的大模型都未經(jīng)過獨(dú)立同行評審,而DeepSeek打破了這一空白?!蹲匀弧氛J(rèn)為,AI行業(yè)中未經(jīng)證實(shí)的說法和炒作已經(jīng)司空見慣,而DeepSeek所做的工作是邁向透明度和可重復(fù)性的一步。
DeepSeek-R1的研究出發(fā)點(diǎn)在于解決當(dāng)時困擾AI行業(yè)的一個重大問題:提升大語言模型的推理能力需要依賴人工標(biāo)注,限制了可擴(kuò)展性。DeepSeek嘗試通過強(qiáng)化學(xué)習(xí)讓模型自我演化發(fā)展出推理能力?;贒eepSeek-V3 Base,使用GRPO作為強(qiáng)化學(xué)習(xí)框架,僅以最終預(yù)測結(jié)果與真實(shí)答案的正確性為獎勵信號,構(gòu)建出DeepSeek-R1-Zero。在此基礎(chǔ)上,采用多階段訓(xùn)練結(jié)合RL、拒絕采樣和監(jiān)督微調(diào),開發(fā)出DeepSeek-R1,使模型既具備強(qiáng)推理能力,又能更好貼合人類偏好。
DeepSeek于2月14日將論文提交至《自然》,直至7月17日被接收,9月17日正式發(fā)布。期間有8位外部專家參與了同行評審,審稿報告與作者回復(fù)一并披露。
沈陽教授指出,《自然》的文章從兩個層面值得解讀。首先是學(xué)術(shù)史與產(chǎn)業(yè)史的交叉點(diǎn)。過去幾年,大模型的敘事幾乎全由公司新聞稿、博客和技術(shù)報告構(gòu)成。同行評審在AI領(lǐng)域長期被忽視,因?yàn)樗?,不利于搶占敘事制高點(diǎn)。然而,DeepSeek-R1被《自然》認(rèn)可,重新將AI模型拉回到科學(xué)共同體的規(guī)訓(xùn),賦予其與物理學(xué)、醫(yī)學(xué)、材料學(xué)并列的學(xué)術(shù)地位,表明AI也能在嚴(yán)格的科學(xué)制度下存活。