揭秘DeepSeek內幕，為什么強化學習是下一個 Scaling Law？創(chuàng)新引領算力革命(3)

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2025-02-28 10:21:35 新浪財經

專家并行策略將MoE架構下的各個“專家”子模型部署到不同的GPU或計算節(jié)點上，使其獨立運算。DeepSeek團隊在訓練中所使用的EP策略中引入了無輔助損耗的負載平衡，通過動態(tài)偏置項實現(xiàn)對每個專家的訓練程度的平衡。

雙重流水線策略通過將一個較大數(shù)據(jù)批次分解為多個微批次，減少了計算設備的空閑時間。DeepSeek團隊在傳統(tǒng)PP策略的基礎上創(chuàng)新性地提出并應用了Dual Pipe技術，有效地融合了前向和后向計算加速通信。

PTX代碼加持為硬件工程化創(chuàng)新帶來進一步可能。DS團隊在實施硬件工程優(yōu)化的過程中使用了PTX代碼，顯著提升了CUDA程序的可移植性和硬件調度效率。PTX指令集可以實現(xiàn)矩陣乘法加速、數(shù)據(jù)精度轉化等多項硬件調度優(yōu)化方向。

未來計算架構設計可能會受到稀疏化MLP層的影響，芯片架構可能發(fā)生變化，設計針對不同MLP層的定制化架構加速專家運算。通信設計方面，MoE架構下的專家并行并不一定減少高速通信的需求，具體問題需要具體分析。

對于訓練硬件市場需求的變化，DS團隊的創(chuàng)新成果使得“大模型平權”成為可能。盡管短期內更大的邊際成本投入不會停止，但開源模型的勝利加速了行業(yè)技術革新，利好預訓練硬件需求。后訓練方面，GRPO算法的引入使得DS團隊找到了讓模型自我學習的方法，加速了后訓練端算力需求釋放。

國產算力支持DeepSeek訓練存在一些挑戰(zhàn)，尤其是缺少對FP8精度的支持?？梢酝ㄟ^多級路由實現(xiàn)更精細化的專家顆粒度，解決部分問題。通信庫的優(yōu)化也非常重要，第三方AI基礎設施企業(yè)的商業(yè)機會與價值也會被凸顯出來。

風險包括生成式AI模型創(chuàng)新不及預期、AI算力硬件技術迭代不及預期以及AI應用落地進展不及預期。這些因素都可能影響技術迭代與產業(yè)升級進程。

(責任編輯：盧其龍 CN070)

關閉

揭秘DeepSeek內幕，為什么強化學習是下一個 Scaling Law？ 創(chuàng)新引領算力革命(3)