近日,深圳河套學(xué)院AI訓(xùn)練平臺項(xiàng)目團(tuán)隊(duì)聯(lián)合哈爾濱工業(yè)大學(xué)(深圳)、深圳市大數(shù)據(jù)研究院及華為相關(guān)團(tuán)隊(duì),協(xié)同深智城AI算力平臺,基于昇騰910C國產(chǎn)AI算力集群,完成了1.6萬億參數(shù)大模型DeepSeek-V4-Pro的全參數(shù)后訓(xùn)練。這一實(shí)踐為全球第三方機(jī)構(gòu)在國產(chǎn)算力平臺上完成該級別模型訓(xùn)練積累了重要經(jīng)驗(yàn),證明了國產(chǎn)AI芯片能夠支撐世界級超大參數(shù)模型訓(xùn)練工作。

萬億參數(shù)大模型是人工智能領(lǐng)域的主流前沿模型,在邏輯推理、數(shù)理計(jì)算、代碼編寫和長文本理解等方面表現(xiàn)突出。這類模型的全參數(shù)訓(xùn)練對硬件算力、集群穩(wěn)定性和算法適配優(yōu)化有極高的要求。長期以來,全球范圍內(nèi)萬億級大模型訓(xùn)練多采用海外高端算力產(chǎn)品,國內(nèi)國產(chǎn)算力主要用于模型推理和小幅微調(diào),難以完成全參數(shù)深度訓(xùn)練,這是行業(yè)發(fā)展中普遍面臨的技術(shù)難題。

如果把訓(xùn)練一個萬億級參數(shù)的AI大模型比作解一道超級復(fù)雜的數(shù)學(xué)題,每一張計(jì)算卡就像一名解題員。他們不僅要分工明確、日夜不停地連軸轉(zhuǎn),還不能有人偷懶、出錯或掉隊(duì)。這次訓(xùn)練的DeepSeek-V4-Pro采用的是混合專家模型(MoE)架構(gòu),可以想象成一個龐大的“專家團(tuán)”。平時回答問題只激活少數(shù)幾位專家,看似高效,但后訓(xùn)練時,“專家們”之間的溝通量卻是普通模型的幾十倍。再加上動態(tài)切換的注意力機(jī)制,這對芯片算力的調(diào)度和顯存資源的管理提出了極其苛刻的要求。簡單來說,以前的國產(chǎn)算力更多是讓大模型“能用”,即推理部署,而這次的“全參數(shù)后訓(xùn)練”則是要讓模型學(xué)會自我反思和調(diào)整,計(jì)算量和通信量瞬間翻了好幾倍。
面對如此極限的挑戰(zhàn),科研團(tuán)隊(duì)在國產(chǎn)AI算力集群上實(shí)現(xiàn)了三大突破:一是“顯存拼圖”,設(shè)計(jì)了精密的分布式承載方案,將龐大的模型參數(shù)精確地分配到千卡集群的每一張卡上;二是“負(fù)載均衡”,優(yōu)化了調(diào)度策略,確保每位“專家”分工合理,跨卡通信不再“堵車”;三是“有人‘守夜’”,搭建了完整的監(jiān)控體系,確保長達(dá)1500多步的訓(xùn)練過程中沒有出現(xiàn)一次中斷或報(bào)錯。
本次探索是國產(chǎn)算力適配超大參數(shù)大模型過程中的重要進(jìn)展,有助于提升國內(nèi)AI產(chǎn)業(yè)鏈自主化水平,降低行業(yè)應(yīng)用成本,為人工智能技術(shù)落地提供更多支撐。目前,項(xiàng)目已實(shí)現(xiàn)模型算力利用率超過30%,關(guān)鍵訓(xùn)練算子效率提升14%,各項(xiàng)指標(biāo)均達(dá)到工業(yè)級運(yùn)行標(biāo)準(zhǔn)。從技術(shù)應(yīng)用角度來看,調(diào)用已有模型開展業(yè)務(wù)推理與從零完成模型全參數(shù)訓(xùn)練分屬不同技術(shù)環(huán)節(jié),二者在技術(shù)難度和硬件要求上有明顯區(qū)別。本次試驗(yàn)結(jié)果表明,國產(chǎn)AI算力已可承擔(dān)頂級大模型訓(xùn)練任務(wù),相關(guān)技術(shù)路徑具備可行性。