AI初創(chuàng)公司DeepSeek的論文最近登上了《自然》雜志。該公司表示,其強大的AI模型R1的成功并不依賴于模仿其他大型語言模型生成的示例進行訓練。這一聲明隨著R1模型同行評審版本的發(fā)布而公布。
論文詳細介紹了DeepSeek如何增強標準的大型語言模型以應對推理任務,并首次揭示了訓練R1的成本為29.4萬美元。這不包括公司在開發(fā)基礎LLM上花費的大約600萬美元,但總成本仍然遠低于競爭對手模型所花費的數(shù)千萬美元。R1主要使用英偉達的H800芯片進行訓練。
R1被認為是第一個經(jīng)過同行評審過程的主要大型語言模型。Hugging Face的機器學習工程師劉易斯·圖恩斯特爾審閱了該論文后表示,這是一個非常受歡迎的先例,因為公開分享這一過程有助于評估這些系統(tǒng)是否構成風險。
自1月份發(fā)布以來,DeepSeek因其與世界領先的AI應用相比具有明顯競爭優(yōu)勢且成本低廉而備受贊譽和關注。據(jù)Sensor Tower數(shù)據(jù),DeepSeek推出的應用在最初的18天內獲得了1600萬次下載,幾乎是OpenAI的ChatGPT首次發(fā)布時900萬次下載量的兩倍。
公開資料顯示,DeepSeek成立于2023年7月,由知名量化資管巨頭幻方量化創(chuàng)立,專注于開發(fā)先進的大語言模型和技術?;梅搅炕恼崎T人梁文鋒是DeepSeek的創(chuàng)始人。
DeepSeek團隊的研究論文登上了國際權威期刊《自然》的封面,通訊作者為梁文鋒。這篇論文詳細介紹了DeepSeek-R1推理模型的訓練細節(jié),并回應了關于模型蒸餾的質疑
2025-09-18 11:26:12梁文鋒論文登上自然封面9月17日,DeepSeek團隊的研究論文《DeepSeek-R1》登上了國際權威期刊《自然》的封面。梁文鋒擔任通訊作者
2025-09-18 20:27:37清華教授談DeepSeek登自然封面北京大學與DeepSeek合作的論文有望獲得ACL 2025最佳論文獎。該論文由梁文鋒親自提交到arXiv,地址為https://arxiv.org/abs/2502.11089
2025-05-19 13:51:37北大DeepSeek論文或預定ACLBestPaper北京時間10月10日,美國《時代》雜志公布了2025年度最佳發(fā)明榜單,共有300款產品上榜,其中包括宇樹科技、DeepSeek、華為、比亞迪和蘋果公司的產品
2025-10-10 12:17:56時代雜志公布年度300大發(fā)明榜單