1月1日,DeepSeek在新年前發(fā)布了一項重要研究,提出了一種名為mHC(流形約束超連接)的新網(wǎng)絡(luò)架構(gòu)。該架構(gòu)旨在解決傳統(tǒng)架構(gòu)在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問題,為下一代基礎(chǔ)架構(gòu)的演進指明了新方向。
新論文《mHC: Manifold-Constrained Hyper-Connections》由DeepSeek創(chuàng)始人兼CEO梁文鋒及解振達、韋毅軒、曹煥琪等人共同完成。近年來,以超連接為代表的研究拓展了過去十年確立的通用殘差連接范式,通過拓寬神經(jīng)網(wǎng)絡(luò)的信息傳輸通道和增加通道間的連接,提升了模型性能。然而,這也導(dǎo)致了大規(guī)模訓(xùn)練中的不穩(wěn)定性、可擴展性受限及內(nèi)存訪問開銷大的問題。
DeepSeek的這篇論文針對這些問題提出了改進框架mHC架構(gòu)。這一架構(gòu)類似于給超連接的信息通道加了一套“交通規(guī)則”,在保留性能優(yōu)勢的同時,恢復(fù)了信息原樣傳遞的特性,使模型訓(xùn)練更穩(wěn)定且更容易擴展,從而推動大模型底層架構(gòu)的工業(yè)化落地。
簡單來說,如果將AI模型想象成一個很長的“計算鏈條”,傳統(tǒng)方法的問題在于信息傳遞時管道較窄,容易造成“堵車”。后來的方法是將管道加寬,雖然信息流更多,但水流過猛有時會沖壞水管。mHC相當(dāng)于給水管加了“智能調(diào)節(jié)閥”,確保水流穩(wěn)定,運行時更節(jié)省資源。
DeepSeek表示,mHC為未來研究開辟了多個前景廣闊的路徑,希望它能重新激發(fā)學(xué)界對宏觀架構(gòu)設(shè)計的興趣。通過深化對拓撲結(jié)構(gòu)如何影響優(yōu)化與表征學(xué)習(xí)的理解,mHC或?qū)⒂兄谕黄飘?dāng)前限制,并可能為下一代基礎(chǔ)架構(gòu)的演進指明新方向。
從行業(yè)意義上來看,mHC或許能讓企業(yè)在訓(xùn)練更大規(guī)模的基礎(chǔ)模型時減少硬件投入、縮短訓(xùn)練周期。算力有限的中小AI企業(yè)也能嘗試開發(fā)更復(fù)雜的大模型,降低了大模型研發(fā)的門檻。此外,訓(xùn)練穩(wěn)定性和可擴展性的提升能讓大模型在更復(fù)雜的場景中落地,如需要超大規(guī)模參數(shù)的多模態(tài)模型和工業(yè)級的智能決策系統(tǒng)。
有行業(yè)人士認為,DeepSeek的這一研究是底層創(chuàng)新,這次創(chuàng)新的架構(gòu)看向的是Transformer最基礎(chǔ)的問題,結(jié)合此前的積累,預(yù)測DeepSeek有望在V4版本中做出重大更新。
自2025年初引發(fā)廣泛關(guān)注以來,這一年DeepSeek雖未正式推出R2或V4等重大版本,但在模型迭代與開源上持續(xù)發(fā)力。僅12月就同步推出了DeepSeek-V3.2與V3.2-Special,11月底也開源了數(shù)學(xué)推理模型DeepSeek-Math-V2,成為目前首個達到國際奧數(shù)金牌水平并開放使用的數(shù)學(xué)模型。
在不久前的美國拉斯維加斯消費電子展上,英偉達公司首席執(zhí)行官黃仁勛在其主旨演講中提到,“物理人工智能(物理AI)”的“ChatGPT時刻”已經(jīng)到來。這一觀點引發(fā)了廣泛討論
2026-01-18 09:53:08黃仁勛反復(fù)強調(diào)的物理AI是個啥