揭秘DeepSeek內(nèi)幕,為什么強化學習是下一個 Scaling Law?近期,中國企業(yè)DeepSeek(以下簡稱DS)全面開源了其創(chuàng)新成果,引發(fā)了市場對生成式AI技術(shù)發(fā)展與算力硬件需求的熱烈討論。DS的V3版本模型以僅1/10訓練成本消耗便獲得了與海外領(lǐng)先模型GPT-4o/Llama3.3對標的能力,并通過對V3同一基礎(chǔ)模型的后訓練,獲得了能力對齊GPT-o1的R1模型。這種創(chuàng)新在中美貿(mào)易摩擦背景下AI硬件采購受限的情況下顯得尤為重要,它并未提出任何反“Scaling Law”的趨勢,而是通過提高全行業(yè)算力資源使用效率來創(chuàng)造更大的需求。
DS V3通過多種方式優(yōu)化算力使用:在MLP層引入稀疏化的MoE架構(gòu),只需根據(jù)輸入數(shù)據(jù)特點調(diào)動部分專家模型進行處理,無需復用所有參數(shù);引入FP8精度訓練,采用MTP(多token生成)優(yōu)化訓練效率;在后訓練階段簡化模型數(shù)量,優(yōu)化獎勵機制,獨創(chuàng)GRPO算法為強化學習提供方向。
PTX代碼的加持進一步釋放了硬件使用效率。確定創(chuàng)新的模型網(wǎng)絡(luò)結(jié)構(gòu)后,有針對性地設(shè)計和優(yōu)化AI基礎(chǔ)設(shè)施變得迫切。DS團隊具有軟硬件一體化系統(tǒng)性的思考能力,這為其成功提供了重要支持。隨著“大模型平權(quán)”帶來的進一步硬件需求釋放,未來AI基礎(chǔ)設(shè)施的重要性有望日益凸顯。
MoE結(jié)構(gòu)可能帶來對處理器架構(gòu)的定制化需求,如更大的計算單元、高效的通信內(nèi)核和近存計算單元等。雖然大量使用專家并行減少了張量并行,但并不能證明高速互聯(lián)需求在更強基礎(chǔ)模型訓練中呈下降趨勢。國產(chǎn)算力若要運行訓練場景,需對FP8數(shù)據(jù)類型及高算力做好進一步支持。
分析顯示,DeepSeek在模型訓練過程中引入了多項創(chuàng)新。堅定不移延續(xù)MoE路徑,稀疏化架構(gòu)減少算力消耗。MoE最早在1991年被提出,是一種網(wǎng)絡(luò)層結(jié)構(gòu),主要由專家網(wǎng)絡(luò)、門控網(wǎng)絡(luò)與選擇器組成。DeepSeek在訓練上采用稀疏MoE架構(gòu),其門控機制僅激活少數(shù)設(shè)備上的少量專家,在擴大模型容量同時控制訓練資源消耗。
實證結(jié)果表明,DeepSeek MoE 2B的性能與GShard 2.9B相當,而后者專家參數(shù)量和計算量均為前者的1.5倍。擴展至16B參數(shù)規(guī)模時,DeepSeek MoE的性能與LLaMA2 7B相當,而計算量僅需后者的約40%。在145B參數(shù)規(guī)模的初步實驗中,DeepSeek MoE較GShard展現(xiàn)出顯著優(yōu)勢,性能媲美DeepSeek 67B,而計算量僅需后者的28.5%。
采用FP8精度訓練,節(jié)省計算單元占用,進而節(jié)省算力資源。低數(shù)據(jù)精度訓練是降低訓練成本的較有前景的方向之一。通常的大模型訓練會采用BF16或FP32/TF32精度作為數(shù)據(jù)計算和存儲的格式,相比之下,F(xiàn)P8占用的數(shù)據(jù)位寬僅為FP32的1/4,F(xiàn)P16的1/2,可以有力地提升計算速度,降低對存儲的消耗。DeepSeek團隊在訓練DeepSeek-V3時,采用的是混合精度框架,大部分密集計算操作都以FP8格式進行,而少數(shù)關(guān)鍵操作則策略性地保留其原始數(shù)據(jù)格式,以平衡訓練效率和數(shù)值穩(wěn)定性。
采用MTP方法,多token預測提高模型訓練效率。Meta發(fā)布的論文《Better & Faster Large Language Models via Multi-token Prediction》提出了讓大模型一次性預測多個token,并依據(jù)多個token計算損失的方法。在訓練中使用MTP技術(shù)主要會通過增加給定數(shù)據(jù)量下獲得的訓練信號密度和改變傳統(tǒng)模型的計算模式來降低模型的訓練成本。
后訓練階段引入GRPO算法,拋棄MCTS等傳統(tǒng)方法,優(yōu)化算力開銷。DeepSeek團隊首次提出了GRPO的概念并將其應(yīng)用于強化學習過程中,指出應(yīng)用了GRPO技術(shù)的強化學習對于強化LLMs的數(shù)學推理能力非常有效。在訓練R1-Zero的過程中,DeepSeek團隊完全依賴于應(yīng)用了GRPO技術(shù)的強化學習。
硬件工程化創(chuàng)新方面,隨著大模型不斷發(fā)展,全球各團隊面臨模型參數(shù)越來越大、數(shù)據(jù)量越來越多的問題。單臺計算設(shè)備難以獨自滿足大模型的要求,使用多臺設(shè)備同時運算的“分布式并行”策略成為主流選擇。DeepSeek團隊在硬件工程優(yōu)化中使用了PTX代碼,顯著提升了CUDA程序的可移植性,便于優(yōu)化和精確控制硬件調(diào)度。
專家并行策略將MoE架構(gòu)下的各個“專家”子模型部署到不同的GPU或計算節(jié)點上,使其獨立運算。DeepSeek團隊在訓練中所使用的EP策略中引入了無輔助損耗的負載平衡,通過動態(tài)偏置項實現(xiàn)對每個專家的訓練程度的平衡。
雙重流水線策略通過將一個較大數(shù)據(jù)批次分解為多個微批次,減少了計算設(shè)備的空閑時間。DeepSeek團隊在傳統(tǒng)PP策略的基礎(chǔ)上創(chuàng)新性地提出并應(yīng)用了Dual Pipe技術(shù),有效地融合了前向和后向計算加速通信。
PTX代碼加持為硬件工程化創(chuàng)新帶來進一步可能。DS團隊在實施硬件工程優(yōu)化的過程中使用了PTX代碼,顯著提升了CUDA程序的可移植性和硬件調(diào)度效率。PTX指令集可以實現(xiàn)矩陣乘法加速、數(shù)據(jù)精度轉(zhuǎn)化等多項硬件調(diào)度優(yōu)化方向。
未來計算架構(gòu)設(shè)計可能會受到稀疏化MLP層的影響,芯片架構(gòu)可能發(fā)生變化,設(shè)計針對不同MLP層的定制化架構(gòu)加速專家運算。通信設(shè)計方面,MoE架構(gòu)下的專家并行并不一定減少高速通信的需求,具體問題需要具體分析。
對于訓練硬件市場需求的變化,DS團隊的創(chuàng)新成果使得“大模型平權(quán)”成為可能。盡管短期內(nèi)更大的邊際成本投入不會停止,但開源模型的勝利加速了行業(yè)技術(shù)革新,利好預訓練硬件需求。后訓練方面,GRPO算法的引入使得DS團隊找到了讓模型自我學習的方法,加速了后訓練端算力需求釋放。
國產(chǎn)算力支持DeepSeek訓練存在一些挑戰(zhàn),尤其是缺少對FP8精度的支持。可以通過多級路由實現(xiàn)更精細化的專家顆粒度,解決部分問題。通信庫的優(yōu)化也非常重要,第三方AI基礎(chǔ)設(shè)施企業(yè)的商業(yè)機會與價值也會被凸顯出來。
風險包括生成式AI模型創(chuàng)新不及預期、AI算力硬件技術(shù)迭代不及預期以及AI應(yīng)用落地進展不及預期。這些因素都可能影響技術(shù)迭代與產(chǎn)業(yè)升級進程。
中國國產(chǎn)大模型Deepseek在硅谷引起了轟動。從斯坦福到麻省理工,Deepseek R1幾乎一夜之間成為美國頂尖大學研究人員的首選模型
2025-01-27 15:33:19媒體揭秘國產(chǎn)大模型DeepSeek