近日,深圳河套學(xué)院AI訓(xùn)練平臺(tái)項(xiàng)目團(tuán)隊(duì)聯(lián)合哈爾濱工業(yè)大學(xué)(深圳)、深圳市大數(shù)據(jù)研究院及華為相關(guān)團(tuán)隊(duì),協(xié)同深智城AI算力平臺(tái),基于昇騰910C國產(chǎn)AI算力集群,完成了1.6萬億參數(shù)大模型DeepSeek-V4-Pro的全參數(shù)后訓(xùn)練。這一實(shí)踐為全球第三方機(jī)構(gòu)在國產(chǎn)算力平臺(tái)上完成該級(jí)別模型訓(xùn)練積累了重要經(jīng)驗(yàn),證明了國產(chǎn)AI芯片能夠支撐世界級(jí)超大參數(shù)模型訓(xùn)練工作。

萬億參數(shù)大模型是人工智能領(lǐng)域的主流前沿模型,在邏輯推理、數(shù)理計(jì)算、代碼編寫和長文本理解等方面表現(xiàn)突出。這類模型的全參數(shù)訓(xùn)練對(duì)硬件算力、集群穩(wěn)定性和算法適配優(yōu)化有極高的要求。長期以來,全球范圍內(nèi)萬億級(jí)大模型訓(xùn)練多采用海外高端算力產(chǎn)品,國內(nèi)國產(chǎn)算力主要用于模型推理和小幅微調(diào),難以完成全參數(shù)深度訓(xùn)練,這是行業(yè)發(fā)展中普遍面臨的技術(shù)難題。

如果把訓(xùn)練一個(gè)萬億級(jí)參數(shù)的AI大模型比作解一道超級(jí)復(fù)雜的數(shù)學(xué)題,每一張計(jì)算卡就像一名解題員。他們不僅要分工明確、日夜不停地連軸轉(zhuǎn),還不能有人偷懶、出錯(cuò)或掉隊(duì)。這次訓(xùn)練的DeepSeek-V4-Pro采用的是混合專家模型(MoE)架構(gòu),可以想象成一個(gè)龐大的“專家團(tuán)”。平時(shí)回答問題只激活少數(shù)幾位專家,看似高效,但后訓(xùn)練時(shí),“專家們”之間的溝通量卻是普通模型的幾十倍。再加上動(dòng)態(tài)切換的注意力機(jī)制,這對(duì)芯片算力的調(diào)度和顯存資源的管理提出了極其苛刻的要求。簡單來說,以前的國產(chǎn)算力更多是讓大模型“能用”,即推理部署,而這次的“全參數(shù)后訓(xùn)練”則是要讓模型學(xué)會(huì)自我反思和調(diào)整,計(jì)算量和通信量瞬間翻了好幾倍。