華為昇騰910C完成訓(xùn)練突破萬億參數(shù)大模型難關(guān)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-06-08 08:18:21 觀察者網(wǎng)

近日，深圳河套學(xué)院AI訓(xùn)練平臺(tái)項(xiàng)目團(tuán)隊(duì)聯(lián)合哈爾濱工業(yè)大學(xué)(深圳)、深圳市大數(shù)據(jù)研究院及華為相關(guān)團(tuán)隊(duì)，協(xié)同深智城AI算力平臺(tái)，基于昇騰910C國產(chǎn)AI算力集群，完成了1.6萬億參數(shù)大模型DeepSeek-V4-Pro的全參數(shù)后訓(xùn)練。這一實(shí)踐為全球第三方機(jī)構(gòu)在國產(chǎn)算力平臺(tái)上完成該級(jí)別模型訓(xùn)練積累了重要經(jīng)驗(yàn)，證明了國產(chǎn)AI芯片能夠支撐世界級(jí)超大參數(shù)模型訓(xùn)練工作。

華為昇騰910C完成訓(xùn)練

萬億參數(shù)大模型是人工智能領(lǐng)域的主流前沿模型，在邏輯推理、數(shù)理計(jì)算、代碼編寫和長文本理解等方面表現(xiàn)突出。這類模型的全參數(shù)訓(xùn)練對(duì)硬件算力、集群穩(wěn)定性和算法適配優(yōu)化有極高的要求。長期以來，全球范圍內(nèi)萬億級(jí)大模型訓(xùn)練多采用海外高端算力產(chǎn)品，國內(nèi)國產(chǎn)算力主要用于模型推理和小幅微調(diào)，難以完成全參數(shù)深度訓(xùn)練，這是行業(yè)發(fā)展中普遍面臨的技術(shù)難題。

華為昇騰910C完成訓(xùn)練突破萬億參數(shù)大模型難關(guān)

如果把訓(xùn)練一個(gè)萬億級(jí)參數(shù)的AI大模型比作解一道超級(jí)復(fù)雜的數(shù)學(xué)題，每一張計(jì)算卡就像一名解題員。他們不僅要分工明確、日夜不停地連軸轉(zhuǎn)，還不能有人偷懶、出錯(cuò)或掉隊(duì)。這次訓(xùn)練的DeepSeek-V4-Pro采用的是混合專家模型（MoE）架構(gòu)，可以想象成一個(gè)龐大的“專家團(tuán)”。平時(shí)回答問題只激活少數(shù)幾位專家，看似高效，但后訓(xùn)練時(shí)，“專家們”之間的溝通量卻是普通模型的幾十倍。再加上動(dòng)態(tài)切換的注意力機(jī)制，這對(duì)芯片算力的調(diào)度和顯存資源的管理提出了極其苛刻的要求。簡單來說，以前的國產(chǎn)算力更多是讓大模型“能用”，即推理部署，而這次的“全參數(shù)后訓(xùn)練”則是要讓模型學(xué)會(huì)自我反思和調(diào)整，計(jì)算量和通信量瞬間翻了好幾倍。

12 全文共 2 頁下一頁

關(guān)閉

華為昇騰910C完成訓(xùn)練 突破萬億參數(shù)大模型難關(guān)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

華為昇騰910C完成訓(xùn)練突破萬億參數(shù)大模型難關(guān)