華為昇騰910C完成訓(xùn)練突破萬億參數(shù)大模型難關(guān)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-06-08 08:18:21 觀察者網(wǎng)

近日，深圳河套學(xué)院AI訓(xùn)練平臺項(xiàng)目團(tuán)隊(duì)聯(lián)合哈爾濱工業(yè)大學(xué)(深圳)、深圳市大數(shù)據(jù)研究院及華為相關(guān)團(tuán)隊(duì)，協(xié)同深智城AI算力平臺，基于昇騰910C國產(chǎn)AI算力集群，完成了1.6萬億參數(shù)大模型DeepSeek-V4-Pro的全參數(shù)后訓(xùn)練。這一實(shí)踐為全球第三方機(jī)構(gòu)在國產(chǎn)算力平臺上完成該級別模型訓(xùn)練積累了重要經(jīng)驗(yàn)，證明了國產(chǎn)AI芯片能夠支撐世界級超大參數(shù)模型訓(xùn)練工作。

華為昇騰910C完成訓(xùn)練

萬億參數(shù)大模型是人工智能領(lǐng)域的主流前沿模型，在邏輯推理、數(shù)理計(jì)算、代碼編寫和長文本理解等方面表現(xiàn)突出。這類模型的全參數(shù)訓(xùn)練對硬件算力、集群穩(wěn)定性和算法適配優(yōu)化有極高的要求。長期以來，全球范圍內(nèi)萬億級大模型訓(xùn)練多采用海外高端算力產(chǎn)品，國內(nèi)國產(chǎn)算力主要用于模型推理和小幅微調(diào)，難以完成全參數(shù)深度訓(xùn)練，這是行業(yè)發(fā)展中普遍面臨的技術(shù)難題。

華為昇騰910C完成訓(xùn)練突破萬億參數(shù)大模型難關(guān)

如果把訓(xùn)練一個萬億級參數(shù)的AI大模型比作解一道超級復(fù)雜的數(shù)學(xué)題，每一張計(jì)算卡就像一名解題員。他們不僅要分工明確、日夜不停地連軸轉(zhuǎn)，還不能有人偷懶、出錯或掉隊(duì)。這次訓(xùn)練的DeepSeek-V4-Pro采用的是混合專家模型（MoE）架構(gòu)，可以想象成一個龐大的“專家團(tuán)”。平時回答問題只激活少數(shù)幾位專家，看似高效，但后訓(xùn)練時，“專家們”之間的溝通量卻是普通模型的幾十倍。再加上動態(tài)切換的注意力機(jī)制，這對芯片算力的調(diào)度和顯存資源的管理提出了極其苛刻的要求。簡單來說，以前的國產(chǎn)算力更多是讓大模型“能用”，即推理部署，而這次的“全參數(shù)后訓(xùn)練”則是要讓模型學(xué)會自我反思和調(diào)整，計(jì)算量和通信量瞬間翻了好幾倍。

面對如此極限的挑戰(zhàn)，科研團(tuán)隊(duì)在國產(chǎn)AI算力集群上實(shí)現(xiàn)了三大突破：一是“顯存拼圖”，設(shè)計(jì)了精密的分布式承載方案，將龐大的模型參數(shù)精確地分配到千卡集群的每一張卡上；二是“負(fù)載均衡”，優(yōu)化了調(diào)度策略，確保每位“專家”分工合理，跨卡通信不再“堵車”；三是“有人‘守夜’”，搭建了完整的監(jiān)控體系，確保長達(dá)1500多步的訓(xùn)練過程中沒有出現(xiàn)一次中斷或報(bào)錯。

本次探索是國產(chǎn)算力適配超大參數(shù)大模型過程中的重要進(jìn)展，有助于提升國內(nèi)AI產(chǎn)業(yè)鏈自主化水平，降低行業(yè)應(yīng)用成本，為人工智能技術(shù)落地提供更多支撐。目前，項(xiàng)目已實(shí)現(xiàn)模型算力利用率超過30%，關(guān)鍵訓(xùn)練算子效率提升14%，各項(xiàng)指標(biāo)均達(dá)到工業(yè)級運(yùn)行標(biāo)準(zhǔn)。從技術(shù)應(yīng)用角度來看，調(diào)用已有模型開展業(yè)務(wù)推理與從零完成模型全參數(shù)訓(xùn)練分屬不同技術(shù)環(huán)節(jié)，二者在技術(shù)難度和硬件要求上有明顯區(qū)別。本次試驗(yàn)結(jié)果表明，國產(chǎn)AI算力已可承擔(dān)頂級大模型訓(xùn)練任務(wù)，相關(guān)技術(shù)路徑具備可行性。

(責(zé)任編輯：zx0176)

關(guān)閉

華為昇騰910C完成訓(xùn)練 突破萬億參數(shù)大模型難關(guān)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

華為昇騰910C完成訓(xùn)練突破萬億參數(shù)大模型難關(guān)