DeepSeek V4有多強(qiáng) 架構(gòu)創(chuàng)新引領(lǐng)未來(4)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-04-28 17:08:27 正和島

除了注意力層，V4還在殘差連接和優(yōu)化器上動了刀。傳統(tǒng)殘差連接被升級為mHC（流形約束超連接），通過數(shù)學(xué)約束讓深層網(wǎng)絡(luò)的信號傳播更穩(wěn)定；大部分模塊的優(yōu)化器從AdamW換成了Muon，通過迭代正交化梯度矩陣來加速收斂。這是DeepSeek第一次同時動Transformer的注意力、殘差、優(yōu)化器這三處核心結(jié)構(gòu)。

后訓(xùn)練方法同樣換了范式。V3.2用的是“混合RL”，一次性優(yōu)化多個目標(biāo)。V4則換成了“分化再統(tǒng)一”的兩步走：先針對數(shù)學(xué)、代碼、Agent等不同領(lǐng)域獨(dú)立訓(xùn)練專家模型，每個專家都在自己的賽道上跑到最優(yōu)；再用一種叫On-Policy Distillation的方法，把十多個領(lǐng)域?qū)＜摇罢麴s”回一個統(tǒng)一的學(xué)生模型——學(xué)生自己生成回答，針對每個回答匹配最懂這個問題的專家的輸出分布，通過logit級對齊把能力吸收進(jìn)來。用通俗的話說，把一堆尖子生蒸餾成一個通才。

這套流程的工程難度在于：同時加載十多個萬億參數(shù)級的教師模型做在線推理幾乎不可能。DeepSeek的做法是把所有教師權(quán)重統(tǒng)一卸載到分布式存儲，只緩存每個教師最后一層的hidden state，訓(xùn)練時按教師索引排序樣本，保證任意時刻GPU顯存里只駐留一個teacherhead。

從2025年初到今天，V3.1、V3.2那些“沒什么亮點(diǎn)”的中間版本，當(dāng)時看似乎是在原地踏步?，F(xiàn)在回頭看，DSA稀疏注意力的種子、TileLang替代CUDA的嘗試、Engram架構(gòu)的早期驗(yàn)證，都是在那時悄悄種下的，V3.2正是V4的地基。

如果說技術(shù)架構(gòu)的革新是V4的“明線”，那么對國產(chǎn)芯片產(chǎn)業(yè)鏈的重塑，則是這次發(fā)布最容易被低估的“暗線”。要理解這條暗線的分量，需要先理解過去兩年AI競爭的核心邏輯。大模型發(fā)展至今，行業(yè)的共識是：訓(xùn)練看算力，推理看顯存。在訓(xùn)練階段，誰能買到更多高端GPU，誰能堆出更大集群，誰就更有機(jī)會做出更強(qiáng)的基礎(chǔ)模型。

首頁上一頁 1 2 345 6 7...全文共 8 頁下一頁

關(guān)閉

DeepSeek V4有多強(qiáng) 架構(gòu)創(chuàng)新引領(lǐng)未來(4)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)