專家并行策略將MoE架構下的各個“專家”子模型部署到不同的GPU或計算節(jié)點上,使其獨立運算。DeepSeek團隊在訓練中所使用的EP策略中引入了無輔助損耗的負載平衡,通過動態(tài)偏置項實現(xiàn)對每個專家的訓練程度的平衡。
雙重流水線策略通過將一個較大數(shù)據(jù)批次分解為多個微批次,減少了計算設備的空閑時間。DeepSeek團隊在傳統(tǒng)PP策略的基礎上創(chuàng)新性地提出并應用了Dual Pipe技術,有效地融合了前向和后向計算加速通信。
PTX代碼加持為硬件工程化創(chuàng)新帶來進一步可能。DS團隊在實施硬件工程優(yōu)化的過程中使用了PTX代碼,顯著提升了CUDA程序的可移植性和硬件調度效率。PTX指令集可以實現(xiàn)矩陣乘法加速、數(shù)據(jù)精度轉化等多項硬件調度優(yōu)化方向。
未來計算架構設計可能會受到稀疏化MLP層的影響,芯片架構可能發(fā)生變化,設計針對不同MLP層的定制化架構加速專家運算。通信設計方面,MoE架構下的專家并行并不一定減少高速通信的需求,具體問題需要具體分析。
對于訓練硬件市場需求的變化,DS團隊的創(chuàng)新成果使得“大模型平權”成為可能。盡管短期內更大的邊際成本投入不會停止,但開源模型的勝利加速了行業(yè)技術革新,利好預訓練硬件需求。后訓練方面,GRPO算法的引入使得DS團隊找到了讓模型自我學習的方法,加速了后訓練端算力需求釋放。
國產算力支持DeepSeek訓練存在一些挑戰(zhàn),尤其是缺少對FP8精度的支持??梢酝ㄟ^多級路由實現(xiàn)更精細化的專家顆粒度,解決部分問題。通信庫的優(yōu)化也非常重要,第三方AI基礎設施企業(yè)的商業(yè)機會與價值也會被凸顯出來。
風險包括生成式AI模型創(chuàng)新不及預期、AI算力硬件技術迭代不及預期以及AI應用落地進展不及預期。這些因素都可能影響技術迭代與產業(yè)升級進程。
中國國產大模型Deepseek在硅谷引起了轟動。從斯坦福到麻省理工,Deepseek R1幾乎一夜之間成為美國頂尖大學研究人員的首選模型
2025-01-27 15:33:19媒體揭秘國產大模型DeepSeek