面對(duì)如此極限的挑戰(zhàn),科研團(tuán)隊(duì)在國(guó)產(chǎn)AI算力集群上實(shí)現(xiàn)了三大突破:一是“顯存拼圖”,設(shè)計(jì)了精密的分布式承載方案,將龐大的模型參數(shù)精確地分配到千卡集群的每一張卡上;二是“負(fù)載均衡”,優(yōu)化了調(diào)度策略,確保每位“專家”分工合理,跨卡通信不再“堵車”;三是“有人‘守夜’”,搭建了完整的監(jiān)控體系,確保長(zhǎng)達(dá)1500多步的訓(xùn)練過程中沒有出現(xiàn)一次中斷或報(bào)錯(cuò)。
本次探索是國(guó)產(chǎn)算力適配超大參數(shù)大模型過程中的重要進(jìn)展,有助于提升國(guó)內(nèi)AI產(chǎn)業(yè)鏈自主化水平,降低行業(yè)應(yīng)用成本,為人工智能技術(shù)落地提供更多支撐。目前,項(xiàng)目已實(shí)現(xiàn)模型算力利用率超過30%,關(guān)鍵訓(xùn)練算子效率提升14%,各項(xiàng)指標(biāo)均達(dá)到工業(yè)級(jí)運(yùn)行標(biāo)準(zhǔn)。從技術(shù)應(yīng)用角度來看,調(diào)用已有模型開展業(yè)務(wù)推理與從零完成模型全參數(shù)訓(xùn)練分屬不同技術(shù)環(huán)節(jié),二者在技術(shù)難度和硬件要求上有明顯區(qū)別。本次試驗(yàn)結(jié)果表明,國(guó)產(chǎn)AI算力已可承擔(dān)頂級(jí)大模型訓(xùn)練任務(wù),相關(guān)技術(shù)路徑具備可行性。