梁文鋒和DeepSeek想做啥革新大模型架構

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2026-01-02 18:16:51 第一財經

新年伊始，DeepSeek發(fā)布了一項新研究，提出了一種名為mHC（流形約束超連接）的新網絡架構。這項研究旨在解決傳統(tǒng)架構在大規(guī)模模型訓練中的不穩(wěn)定性問題，為下一代基礎架構的演進提供了新的思路。

論文《mHC: Manifold-Constrained Hyper-Connections》由DeepSeek創(chuàng)始人兼CEO梁文鋒等人共同撰寫，解振達、韋毅軒和曹煥琪是核心貢獻者。近年來，超連接技術通過拓寬神經網絡的信息傳輸通道，提升了模型性能，但也帶來了大規(guī)模訓練中的不穩(wěn)定性和高內存訪問開銷等問題。

DeepSeek的新論文針對這些問題提出了改進框架——mHC架構。這一架構類似于給超連接的信息通道加上一套“交通規(guī)則”，在保留性能優(yōu)勢的同時，恢復了信息原樣傳遞的特性，使模型訓練更加穩(wěn)定且易于擴展。簡單來說，如果將AI模型想象成一個很長的計算鏈條，傳統(tǒng)的計算鏈條信息傳遞時容易堵塞，而超連接方法雖然加寬了管道，但水流過猛可能會損壞水管。mHC則相當于給水管加裝了智能調節(jié)閥，確保水流穩(wěn)定，運行更省資源。

DeepSeek表示，mHC為未來的研究開辟了多個前景廣闊的路徑，希望它能重新激發(fā)學界對宏觀架構設計的興趣。從行業(yè)角度來看，mHC可能讓企業(yè)在訓練更大規(guī)模的基礎模型時減少硬件投入、縮短訓練周期，從而降低大模型研發(fā)門檻。此外，訓練穩(wěn)定性和可擴展性的提升有助于大模型在更復雜場景中的應用，如多模態(tài)模型和工業(yè)級智能決策系統(tǒng)。

有行業(yè)人士認為，DeepSeek的研究是底層創(chuàng)新，結合此前積累，預測其有望在未來版本中做出重大更新。盡管2025年初以來，DeepSeek尚未正式推出R2或V4等重大版本，但在模型迭代與開源方面持續(xù)發(fā)力。例如，12月推出了DeepSeek-V3.2與V3.2-Special，11月底開源了數學推理模型DeepSeek-Math-V2，成為目前首個達到國際奧數金牌水平并開放使用的數學模型。

(責任編輯：zhangxiaohua)

關閉

梁文鋒和DeepSeek想做啥 革新大模型架構

相關新聞

今日熱點

頻道熱點

梁文鋒和DeepSeek想做啥革新大模型架構