除了注意力層,V4還在殘差連接和優(yōu)化器上動了刀。傳統(tǒng)殘差連接被升級為mHC(流形約束超連接),通過數(shù)學(xué)約束讓深層網(wǎng)絡(luò)的信號傳播更穩(wěn)定;大部分模塊的優(yōu)化器從AdamW換成了Muon,通過迭代正交化梯度矩陣來加速收斂。這是DeepSeek第一次同時動Transformer的注意力、殘差、優(yōu)化器這三處核心結(jié)構(gòu)。
后訓(xùn)練方法同樣換了范式。V3.2用的是“混合RL”,一次性優(yōu)化多個目標(biāo)。V4則換成了“分化再統(tǒng)一”的兩步走:先針對數(shù)學(xué)、代碼、Agent等不同領(lǐng)域獨(dú)立訓(xùn)練專家模型,每個專家都在自己的賽道上跑到最優(yōu);再用一種叫On-Policy Distillation的方法,把十多個領(lǐng)域?qū)<摇罢麴s”回一個統(tǒng)一的學(xué)生模型——學(xué)生自己生成回答,針對每個回答匹配最懂這個問題的專家的輸出分布,通過logit級對齊把能力吸收進(jìn)來。用通俗的話說,把一堆尖子生蒸餾成一個通才。
這套流程的工程難度在于:同時加載十多個萬億參數(shù)級的教師模型做在線推理幾乎不可能。DeepSeek的做法是把所有教師權(quán)重統(tǒng)一卸載到分布式存儲,只緩存每個教師最后一層的hidden state,訓(xùn)練時按教師索引排序樣本,保證任意時刻GPU顯存里只駐留一個teacherhead。
從2025年初到今天,V3.1、V3.2那些“沒什么亮點(diǎn)”的中間版本,當(dāng)時看似乎是在原地踏步?,F(xiàn)在回頭看,DSA稀疏注意力的種子、TileLang替代CUDA的嘗試、Engram架構(gòu)的早期驗(yàn)證,都是在那時悄悄種下的,V3.2正是V4的地基。
如果說技術(shù)架構(gòu)的革新是V4的“明線”,那么對國產(chǎn)芯片產(chǎn)業(yè)鏈的重塑,則是這次發(fā)布最容易被低估的“暗線”。要理解這條暗線的分量,需要先理解過去兩年AI競爭的核心邏輯。大模型發(fā)展至今,行業(yè)的共識是:訓(xùn)練看算力,推理看顯存。在訓(xùn)練階段,誰能買到更多高端GPU,誰能堆出更大集群,誰就更有機(jī)會做出更強(qiáng)的基礎(chǔ)模型。