盡管春節(jié)假期已經(jīng)過(guò)半,但“來(lái)自東方的神秘力量的DeepSeek”仍在全球范圍內(nèi)引起熱議。各路業(yè)內(nèi)人士繼續(xù)從不同角度分析DeepSeek的模型和技術(shù)文章。
北京時(shí)間1月31日,英偉達(dá)宣布DeepSeek-R1模型登陸NVIDIA NIM。同一時(shí)段內(nèi),亞馬遜和微軟也接入了DeepSeek-R1模型。英偉達(dá)稱(chēng),DeepSeek-R1是最先進(jìn)的大語(yǔ)言模型。
韓國(guó)Mirae Asset Securities Research的一名分析師在X上撰寫(xiě)長(zhǎng)文分析稱(chēng),這一突破是通過(guò)實(shí)施大量細(xì)粒度優(yōu)化和使用英偉達(dá)的匯編式PTX編程實(shí)現(xiàn)的,而非通過(guò)CUDA中的某些功能。CUDA是由英偉達(dá)開(kāi)發(fā)的一種通用編程框架,允許開(kāi)發(fā)者利用其圖形處理器進(jìn)行通用計(jì)算。
如果DeepSeek真的繞過(guò)了CUDA,這表明其在研發(fā)大模型時(shí)采用了不同的技術(shù)路徑。在DeepSeek-V3的技術(shù)博文中,DeepSeek表示其使用了英偉達(dá)的PTX語(yǔ)言。如果DeepSeek的開(kāi)發(fā)者能夠很好地使用PTX語(yǔ)言,相比使用CUDA提供的編程接口,可以更精細(xì)地控制GPU之間的數(shù)據(jù)、權(quán)重和梯度傳輸。然而,使用PTX編寫(xiě)的代碼復(fù)雜且難以維護(hù),需要專(zhuān)業(yè)度較高的開(kāi)發(fā)者。
繞過(guò)CUDA的做法具有一定的技術(shù)難度,要求開(kāi)發(fā)者既要懂AI模型算法,又要懂計(jì)算機(jī)系統(tǒng)架構(gòu)以高效分配硬件資源。如果沒(méi)有同時(shí)掌握這兩方面技能的開(kāi)發(fā)者,則需要協(xié)調(diào)不同人員。從DeepSeek的技術(shù)報(bào)告來(lái)看,其主體實(shí)現(xiàn)還是基于CUDA的相關(guān)接口,但在描述中提到繞開(kāi)了CUDA來(lái)寫(xiě)通信,這意味著它招聘了具備不同技能的人才,并將這些人才很好地結(jié)合起來(lái)。
這也說(shuō)明DeepSeek擁有一些擅長(zhǎng)寫(xiě)PTX語(yǔ)言的內(nèi)部開(kāi)發(fā)者。假如未來(lái)使用國(guó)產(chǎn)GPU,DeepSeek在硬件適配方面會(huì)更加得心應(yīng)手,只需了解這些硬件驅(qū)動(dòng)提供的一些基本函數(shù)接口,就可以仿照英偉達(dá)GPU硬件的編程接口編寫(xiě)相關(guān)代碼,使自家大模型更容易適配國(guó)產(chǎn)硬件。
從學(xué)術(shù)研究角度來(lái)看,DeepSeek的技術(shù)并沒(méi)有特別突出,但在工程上卻非常有技巧??紤]到AMD已經(jīng)宣布集成DeepSeek-V3到MI300X GPU,未來(lái)可能會(huì)有更多GPU廠商與DeepSeek合作。韓國(guó)分析師在同一篇X文章中指出,這凸顯了DeepSeek非凡的工程水平,并表明美國(guó)對(duì)華制裁加劇的“GPU短缺危機(jī)”激發(fā)了他們的緊迫感和創(chuàng)造力。