DeepSeek的新年禮物mHC是個啥為大模型訓(xùn)練指路

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-01-03 21:19:39 第一財經(jīng)

1月1日，DeepSeek在新年前發(fā)布了一項重要研究，提出了一種名為mHC（流形約束超連接）的新網(wǎng)絡(luò)架構(gòu)。該架構(gòu)旨在解決傳統(tǒng)架構(gòu)在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問題，為下一代基礎(chǔ)架構(gòu)的演進指明了新方向。

新論文《mHC: Manifold-Constrained Hyper-Connections》由DeepSeek創(chuàng)始人兼CEO梁文鋒及解振達、韋毅軒、曹煥琪等人共同完成。近年來，以超連接為代表的研究拓展了過去十年確立的通用殘差連接范式，通過拓寬神經(jīng)網(wǎng)絡(luò)的信息傳輸通道和增加通道間的連接，提升了模型性能。然而，這也導(dǎo)致了大規(guī)模訓(xùn)練中的不穩(wěn)定性、可擴展性受限及內(nèi)存訪問開銷大的問題。

DeepSeek的這篇論文針對這些問題提出了改進框架mHC架構(gòu)。這一架構(gòu)類似于給超連接的信息通道加了一套“交通規(guī)則”，在保留性能優(yōu)勢的同時，恢復(fù)了信息原樣傳遞的特性，使模型訓(xùn)練更穩(wěn)定且更容易擴展，從而推動大模型底層架構(gòu)的工業(yè)化落地。

簡單來說，如果將AI模型想象成一個很長的“計算鏈條”，傳統(tǒng)方法的問題在于信息傳遞時管道較窄，容易造成“堵車”。后來的方法是將管道加寬，雖然信息流更多，但水流過猛有時會沖壞水管。mHC相當(dāng)于給水管加了“智能調(diào)節(jié)閥”，確保水流穩(wěn)定，運行時更節(jié)省資源。

DeepSeek表示，mHC為未來研究開辟了多個前景廣闊的路徑，希望它能重新激發(fā)學(xué)界對宏觀架構(gòu)設(shè)計的興趣。通過深化對拓撲結(jié)構(gòu)如何影響優(yōu)化與表征學(xué)習(xí)的理解，mHC或?qū)⒂兄谕黄飘?dāng)前限制，并可能為下一代基礎(chǔ)架構(gòu)的演進指明新方向。

從行業(yè)意義上來看，mHC或許能讓企業(yè)在訓(xùn)練更大規(guī)模的基礎(chǔ)模型時減少硬件投入、縮短訓(xùn)練周期。算力有限的中小AI企業(yè)也能嘗試開發(fā)更復(fù)雜的大模型，降低了大模型研發(fā)的門檻。此外，訓(xùn)練穩(wěn)定性和可擴展性的提升能讓大模型在更復(fù)雜的場景中落地，如需要超大規(guī)模參數(shù)的多模態(tài)模型和工業(yè)級的智能決策系統(tǒng)。

有行業(yè)人士認為，DeepSeek的這一研究是底層創(chuàng)新，這次創(chuàng)新的架構(gòu)看向的是Transformer最基礎(chǔ)的問題，結(jié)合此前的積累，預(yù)測DeepSeek有望在V4版本中做出重大更新。

自2025年初引發(fā)廣泛關(guān)注以來，這一年DeepSeek雖未正式推出R2或V4等重大版本，但在模型迭代與開源上持續(xù)發(fā)力。僅12月就同步推出了DeepSeek-V3.2與V3.2-Special，11月底也開源了數(shù)學(xué)推理模型DeepSeek-Math-V2，成為目前首個達到國際奧數(shù)金牌水平并開放使用的數(shù)學(xué)模型。

(責(zé)任編輯：0764)

關(guān)閉

DeepSeek的新年禮物mHC是個啥 為大模型訓(xùn)練指路

相關(guān)新聞

今日熱點

頻道熱點

DeepSeek的新年禮物mHC是個啥為大模型訓(xùn)練指路