2月26日,在開(kāi)源周的第三天,DeepSeek宣布開(kāi)放高效的FP8 GEMM庫(kù)DeepGEMM。這三天發(fā)布的都是與算法相關(guān)的技術(shù)內(nèi)容。OpenCSG創(chuàng)始人陳冉表示,DeepSeek以前是直接提供一個(gè)模型,現(xiàn)在則深入挖掘背后的技術(shù)細(xì)節(jié)和框架,這些“腳手架”的開(kāi)源有利于后續(xù)生態(tài)的建設(shè)。
此次發(fā)布的關(guān)鍵詞GEMM(通用矩陣乘法)是線(xiàn)性代數(shù)中的基本運(yùn)算,而FP8 GEMM則是一種使用8位浮點(diǎn)數(shù)進(jìn)行矩陣乘法的計(jì)算操作。FP8是一種低精度浮點(diǎn)格式,適用于深度學(xué)習(xí)和高性能計(jì)算,能夠在保持較高計(jì)算效率的同時(shí)減少內(nèi)存占用和帶寬需求。
DeepSeek介紹稱(chēng),DeepGEMM支持傳統(tǒng)的稠密模型和MoE模型的GEMM運(yùn)算,為基于英偉達(dá)Hopper架構(gòu)的V3/R1系列硬件提供高效的訓(xùn)練和推理支持。在英偉達(dá)Hopper架構(gòu)的GPU上,DeepGEMM可實(shí)現(xiàn)超過(guò)1350 FP8 TFLOPS的性能,充分利用算力。該代碼庫(kù)設(shè)計(jì)簡(jiǎn)潔,只有一個(gè)核心內(nèi)核函數(shù),約300行代碼,但在大多數(shù)矩陣規(guī)模上優(yōu)于專(zhuān)家調(diào)優(yōu)的內(nèi)核。
DeepGEMM通過(guò)FP8和硬件級(jí)優(yōu)化解決了大模型計(jì)算效率和資源消耗的問(wèn)題,尤其是對(duì)MoE模型的落地提供了關(guān)鍵支持。其開(kāi)源行為不僅加速了技術(shù)民主化,還可能成為AI計(jì)算生態(tài)的基礎(chǔ)設(shè)施,推動(dòng)行業(yè)向更高效、低成本的方向發(fā)展。FP8作為AI計(jì)算的新興標(biāo)準(zhǔn),可以加速千億參數(shù)模型的訓(xùn)練,降低顯存需求。在邊緣設(shè)備或云端部署時(shí),F(xiàn)P8的低精度計(jì)算能顯著提升吞吐量,降低成本。因此,開(kāi)源DeepGEMM可以推動(dòng)FP8生態(tài)普及,降低開(kāi)發(fā)者使用門(mén)檻,促進(jìn)更多框架和模型適配FP8,加速行業(yè)向低精度計(jì)算遷移。
此外,MoE模型因計(jì)算復(fù)雜性難以落地,DeepGEMM的開(kāi)源提供了高效實(shí)現(xiàn)參考,可能催生更多MoE應(yīng)用,如多模態(tài)模型和邊緣端高效模型。陳冉認(rèn)為,DeepSeek連續(xù)三天的代碼庫(kù)開(kāi)源非常震撼,表明他們?cè)敢夥窒砑夹g(shù)細(xì)節(jié)。長(zhǎng)期來(lái)看,這一開(kāi)源動(dòng)作非常有意義,既有模型標(biāo)準(zhǔn),也有工具標(biāo)準(zhǔn),還有生態(tài)基石,有助于整個(gè)生態(tài)的發(fā)展。陳冉判斷,DeepSeek的代碼開(kāi)源或許會(huì)影響一批從事AI Infra層的從業(yè)者,但這種開(kāi)源是一把雙刃劍,用得好可能得利,用不好則會(huì)被沖擊。也有從業(yè)者認(rèn)為,DeepSeek開(kāi)源的是Infra層的推理加速部分,雖然有影響,但不會(huì)太大。
DeepSeek在此前宣布會(huì)陸續(xù)開(kāi)源五個(gè)代碼庫(kù),接下來(lái)還有兩個(gè)代碼庫(kù)將在本周發(fā)布。每分享一行代碼,都會(huì)成為加速AI行業(yè)發(fā)展的集體動(dòng)力。