9月17日,DeepSeek團(tuán)隊(duì)的研究論文《DeepSeek-R1》登上了國際權(quán)威期刊《自然》的封面。梁文鋒擔(dān)任通訊作者。
該論文首次公開了僅靠強(qiáng)化學(xué)習(xí)就能激發(fā)大模型推理能力的重要成果,這一模型成為全球最受歡迎的開源推理模型,在Hugging Face平臺上的下載量超過1090萬次。清華大學(xué)新聞學(xué)院和人工智能學(xué)院雙聘教授沈陽指出,R1獲得《自然》認(rèn)證是大模型研究領(lǐng)域的一次“制度破局”。
《自然》在社論中高度評價道,幾乎所有主流的大模型都未經(jīng)過獨(dú)立同行評審,而DeepSeek打破了這一空白?!蹲匀弧氛J(rèn)為,AI行業(yè)中未經(jīng)證實(shí)的說法和炒作已經(jīng)司空見慣,而DeepSeek所做的工作是邁向透明度和可重復(fù)性的一步。
DeepSeek-R1的研究出發(fā)點(diǎn)在于解決當(dāng)時困擾AI行業(yè)的一個重大問題:提升大語言模型的推理能力需要依賴人工標(biāo)注,限制了可擴(kuò)展性。DeepSeek嘗試通過強(qiáng)化學(xué)習(xí)讓模型自我演化發(fā)展出推理能力?;贒eepSeek-V3 Base,使用GRPO作為強(qiáng)化學(xué)習(xí)框架,僅以最終預(yù)測結(jié)果與真實(shí)答案的正確性為獎勵信號,構(gòu)建出DeepSeek-R1-Zero。在此基礎(chǔ)上,采用多階段訓(xùn)練結(jié)合RL、拒絕采樣和監(jiān)督微調(diào),開發(fā)出DeepSeek-R1,使模型既具備強(qiáng)推理能力,又能更好貼合人類偏好。
DeepSeek于2月14日將論文提交至《自然》,直至7月17日被接收,9月17日正式發(fā)布。期間有8位外部專家參與了同行評審,審稿報告與作者回復(fù)一并披露。
沈陽教授指出,《自然》的文章從兩個層面值得解讀。首先是學(xué)術(shù)史與產(chǎn)業(yè)史的交叉點(diǎn)。過去幾年,大模型的敘事幾乎全由公司新聞稿、博客和技術(shù)報告構(gòu)成。同行評審在AI領(lǐng)域長期被忽視,因?yàn)樗?,不利于搶占敘事制高點(diǎn)。然而,DeepSeek-R1被《自然》認(rèn)可,重新將AI模型拉回到科學(xué)共同體的規(guī)訓(xùn),賦予其與物理學(xué)、醫(yī)學(xué)、材料學(xué)并列的學(xué)術(shù)地位,表明AI也能在嚴(yán)格的科學(xué)制度下存活。
其次是透明度的范式轉(zhuǎn)折。同行評審的價值在于建立驗(yàn)證習(xí)慣,意味著數(shù)據(jù)集、訓(xùn)練細(xì)節(jié)、指標(biāo)選擇和對比實(shí)驗(yàn)都必須暴露在獨(dú)立專家的審視之下。這直接打破了AI行業(yè)里“黑箱”加“宣傳戰(zhàn)”的常態(tài)。
沈陽分析稱,DeepSeek的文章并非技術(shù)上的碾壓,而是率先在制度層面為大模型建立了“可驗(yàn)證的聲譽(yù)資本”。未來頂級AI論文和模型報告可能不得不更多遵循學(xué)術(shù)審稿流程。此外,同行評審提供了監(jiān)管參照模板,政府和國際組織在評估AI風(fēng)險時有了第三方可依賴的證據(jù)鏈。但也可能出現(xiàn)行業(yè)分化,AI大廠或許保持閉源和商業(yè)化,但公眾和投資人越來越看重“經(jīng)過同行評審的科學(xué)背書”,學(xué)術(shù)信譽(yù)本身可能變成市場競爭力。
DeepSeek-R1不僅是一篇論文,更是一次制度破局。它將AI拉回科學(xué)與學(xué)術(shù)的傳統(tǒng)語境,提升了整個行業(yè)的透明度和可信度。就像電學(xué)在19世紀(jì)必須經(jīng)歷從實(shí)驗(yàn)室奇觀到物理學(xué)標(biāo)準(zhǔn)的洗禮,AI也正在經(jīng)歷類似的轉(zhuǎn)折。這種轉(zhuǎn)折的意義在于,DeepSeek未必馬上在技術(shù)上稱霸,但它的話語合法性先行。未來幾十年,歷史書可能會記錄:2025年,大規(guī)模使用的AI大模型性能改進(jìn)迭代第一次真正進(jìn)入了“同行評審的科學(xué)秩序”。