新年伊始,DeepSeek發(fā)布了一項新研究,提出了一種名為mHC(流形約束超連接)的新網絡架構。這項研究旨在解決傳統(tǒng)架構在大規(guī)模模型訓練中的不穩(wěn)定性問題,為下一代基礎架構的演進提供了新的思路。
論文《mHC: Manifold-Constrained Hyper-Connections》由DeepSeek創(chuàng)始人兼CEO梁文鋒等人共同撰寫,解振達、韋毅軒和曹煥琪是核心貢獻者。近年來,超連接技術通過拓寬神經網絡的信息傳輸通道,提升了模型性能,但也帶來了大規(guī)模訓練中的不穩(wěn)定性和高內存訪問開銷等問題。
DeepSeek的新論文針對這些問題提出了改進框架——mHC架構。這一架構類似于給超連接的信息通道加上一套“交通規(guī)則”,在保留性能優(yōu)勢的同時,恢復了信息原樣傳遞的特性,使模型訓練更加穩(wěn)定且易于擴展。簡單來說,如果將AI模型想象成一個很長的計算鏈條,傳統(tǒng)的計算鏈條信息傳遞時容易堵塞,而超連接方法雖然加寬了管道,但水流過猛可能會損壞水管。mHC則相當于給水管加裝了智能調節(jié)閥,確保水流穩(wěn)定,運行更省資源。
DeepSeek表示,mHC為未來的研究開辟了多個前景廣闊的路徑,希望它能重新激發(fā)學界對宏觀架構設計的興趣。從行業(yè)角度來看,mHC可能讓企業(yè)在訓練更大規(guī)模的基礎模型時減少硬件投入、縮短訓練周期,從而降低大模型研發(fā)門檻。此外,訓練穩(wěn)定性和可擴展性的提升有助于大模型在更復雜場景中的應用,如多模態(tài)模型和工業(yè)級智能決策系統(tǒng)。
有行業(yè)人士認為,DeepSeek的研究是底層創(chuàng)新,結合此前積累,預測其有望在未來版本中做出重大更新。盡管2025年初以來,DeepSeek尚未正式推出R2或V4等重大版本,但在模型迭代與開源方面持續(xù)發(fā)力。例如,12月推出了DeepSeek-V3.2與V3.2-Special,11月底開源了數學推理模型DeepSeek-Math-V2,成為目前首個達到國際奧數金牌水平并開放使用的數學模型。
DeepSeek于12日晚發(fā)布了一篇新論文《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度》。這篇論文由北京大學與DeepSeek合作完成,梁文鋒是合著作者之一
2026-01-13 10:06:00DeepSeek發(fā)布梁文鋒署名論文DeepSeek于12日晚發(fā)布了一篇新論文《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度》。這篇論文由北京大學與DeepSeek合作完成,梁文鋒是合著者之一
2026-01-13 09:32:16DeepSeek發(fā)布梁文鋒署名新論文DeepSeek團隊的研究論文登上了國際權威期刊《自然》的封面,通訊作者為梁文鋒。這篇論文詳細介紹了DeepSeek-R1推理模型的訓練細節(jié),并回應了關于模型蒸餾的質疑
2025-09-18 11:26:12梁文鋒論文登上自然封面