揭秘DeepSeek內(nèi)幕，為什么強化學習是下一個 Scaling Law？創(chuàng)新引領(lǐng)算力革命

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-28 10:21:35 新浪財經(jīng)

揭秘DeepSeek內(nèi)幕，為什么強化學習是下一個 Scaling Law？近期，中國企業(yè)DeepSeek（以下簡稱DS）全面開源了其創(chuàng)新成果，引發(fā)了市場對生成式AI技術(shù)發(fā)展與算力硬件需求的熱烈討論。DS的V3版本模型以僅1/10訓練成本消耗便獲得了與海外領(lǐng)先模型GPT-4o/Llama3.3對標的能力，并通過對V3同一基礎(chǔ)模型的后訓練，獲得了能力對齊GPT-o1的R1模型。這種創(chuàng)新在中美貿(mào)易摩擦背景下AI硬件采購受限的情況下顯得尤為重要，它并未提出任何反“Scaling Law”的趨勢，而是通過提高全行業(yè)算力資源使用效率來創(chuàng)造更大的需求。

DS V3通過多種方式優(yōu)化算力使用：在MLP層引入稀疏化的MoE架構(gòu)，只需根據(jù)輸入數(shù)據(jù)特點調(diào)動部分專家模型進行處理，無需復用所有參數(shù)；引入FP8精度訓練，采用MTP（多token生成）優(yōu)化訓練效率；在后訓練階段簡化模型數(shù)量，優(yōu)化獎勵機制，獨創(chuàng)GRPO算法為強化學習提供方向。

PTX代碼的加持進一步釋放了硬件使用效率。確定創(chuàng)新的模型網(wǎng)絡(luò)結(jié)構(gòu)后，有針對性地設(shè)計和優(yōu)化AI基礎(chǔ)設(shè)施變得迫切。DS團隊具有軟硬件一體化系統(tǒng)性的思考能力，這為其成功提供了重要支持。隨著“大模型平權(quán)”帶來的進一步硬件需求釋放，未來AI基礎(chǔ)設(shè)施的重要性有望日益凸顯。

MoE結(jié)構(gòu)可能帶來對處理器架構(gòu)的定制化需求，如更大的計算單元、高效的通信內(nèi)核和近存計算單元等。雖然大量使用專家并行減少了張量并行，但并不能證明高速互聯(lián)需求在更強基礎(chǔ)模型訓練中呈下降趨勢。國產(chǎn)算力若要運行訓練場景，需對FP8數(shù)據(jù)類型及高算力做好進一步支持。

分析顯示，DeepSeek在模型訓練過程中引入了多項創(chuàng)新。堅定不移延續(xù)MoE路徑，稀疏化架構(gòu)減少算力消耗。MoE最早在1991年被提出，是一種網(wǎng)絡(luò)層結(jié)構(gòu)，主要由專家網(wǎng)絡(luò)、門控網(wǎng)絡(luò)與選擇器組成。DeepSeek在訓練上采用稀疏MoE架構(gòu)，其門控機制僅激活少數(shù)設(shè)備上的少量專家，在擴大模型容量同時控制訓練資源消耗。

12 3 全文共 3 頁下一頁

關(guān)閉

揭秘DeepSeek內(nèi)幕，為什么強化學習是下一個 Scaling Law？ 創(chuàng)新引領(lǐng)算力革命

相關(guān)新聞

今日熱點

頻道熱點

揭秘DeepSeek內(nèi)幕，為什么強化學習是下一個 Scaling Law？創(chuàng)新引領(lǐng)算力革命