DeepSeek于12日晚發(fā)布了一篇新論文《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度》。這篇論文由北京大學與DeepSeek合作完成,梁文鋒是合著作者之一。論文提出了一種稱為條件記憶的新方法,通過引入可擴展的查找記憶結構,在同等參數(shù)和算力條件下,顯著提升了模型在知識調(diào)用、推理、代碼和數(shù)學任務上的表現(xiàn)。DeepSeek還開源了相關的記憶模塊Engram。
DeepSeek于12日晚發(fā)布了一篇新論文《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度》。這篇論文由北京大學與DeepSeek合作完成,梁文鋒是合著者之一
2026-01-13 09:32:16DeepSeek發(fā)布梁文鋒署名新論文DeepSeek團隊的研究論文登上了國際權威期刊《自然》的封面,通訊作者為梁文鋒。這篇論文詳細介紹了DeepSeek-R1推理模型的訓練細節(jié),并回應了關于模型蒸餾的質(zhì)疑
2025-09-18 11:26:12梁文鋒論文登上自然封面DeepSeek于12日晚發(fā)布了一篇新論文《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度》。該論文由北京大學與DeepSeek共同完成,合著作者中包括梁文鋒
2026-01-14 00:09:42DeepSeek發(fā)布新論文