摩爾線程基于MTT S5000打造的夸娥萬(wàn)卡集群,浮點(diǎn)運(yùn)算能力達(dá)10 Exa-Flops,在Dense模型訓(xùn)練中MFU達(dá)60%,在MoE模型中維持在40%左右,有效訓(xùn)練時(shí)間占比超過(guò)90%,訓(xùn)練線性擴(kuò)展效率達(dá)到95%。但在實(shí)際行業(yè)環(huán)境中,萬(wàn)卡級(jí)AI集群的穩(wěn)定性管理仍是一道高難度考題。據(jù)行業(yè)媒體披露,當(dāng)前萬(wàn)卡級(jí)別的AI集群平均每天會(huì)出現(xiàn)一次甚至多次故障,故障來(lái)源包括GPU HBM顯存錯(cuò)誤、高速互聯(lián)鏈路抖動(dòng)、散熱不均導(dǎo)致的熱節(jié)流、甚至電源模塊波動(dòng)等。這不僅是國(guó)產(chǎn)算力的挑戰(zhàn),也是全球AI基礎(chǔ)設(shè)施面臨的共性難題——即便英偉達(dá)的DGX SuperPOD,在實(shí)際運(yùn)行中也難以做到完全無(wú)中斷。
國(guó)產(chǎn)廠商在穩(wěn)定性方面的劣勢(shì)更多體現(xiàn)在工程經(jīng)驗(yàn)的積累深度上。英偉達(dá)在過(guò)去十年中部署了數(shù)百個(gè)大規(guī)模集群,積累了海量的故障模式和調(diào)優(yōu)經(jīng)驗(yàn),這些Know-How是無(wú)法通過(guò)“堆人”快速追趕的。國(guó)產(chǎn)廠商往往在實(shí)驗(yàn)室環(huán)境下跑通了萬(wàn)卡互聯(lián),但一旦進(jìn)入客戶真實(shí)的生產(chǎn)環(huán)境,面對(duì)復(fù)雜的網(wǎng)絡(luò)拓?fù)?、混合?fù)載調(diào)度、以及非理想條件下的長(zhǎng)時(shí)間運(yùn)行,各種“意想不到”的問題就會(huì)暴露出來(lái)。
生態(tài)建設(shè)也是國(guó)產(chǎn)算力老生常談的話題。當(dāng)前,國(guó)產(chǎn)GPU廠商普遍選擇了“兼容生態(tài)”的務(wù)實(shí)路徑。摩爾線程自主研發(fā)的MUSA架構(gòu)對(duì)英偉達(dá)CUDA具備優(yōu)良的兼容性,通過(guò)MUSIFY自動(dòng)移植工具,開發(fā)者能夠以最小成本將國(guó)際主流GPU平臺(tái)應(yīng)用移植至MUSA GPU,大幅提升應(yīng)用移植的效率,縮短開發(fā)周期。天數(shù)智芯和壁仞科技同樣在軟件棧層面投入大量資源,確保PyTorch、TensorFlow、Megatron-LM等主流框架能夠在其硬件上高效運(yùn)行。
然而,兼容模式在縮短市場(chǎng)導(dǎo)入期的同時(shí),也帶來(lái)了一個(gè)結(jié)構(gòu)性的困境:開發(fā)者習(xí)慣被鎖定在CUDA生態(tài)中,國(guó)產(chǎn)平臺(tái)始終停留在“生態(tài)附庸”的位置。更深層的問題在于,兼容路線在管理決策上看似捷徑,但代價(jià)可能是沉重的:國(guó)產(chǎn)GPU廠商需要警惕永遠(yuǎn)做“生態(tài)跟隨者”的風(fēng)險(xiǎn)。英偉達(dá)的護(hù)城河從來(lái)不只是硬件算力,而是CUDA生態(tài)過(guò)去十五年積累的數(shù)百萬(wàn)開發(fā)者、數(shù)千個(gè)加速庫(kù)以及海量的應(yīng)用案例。要想從“兼容”走向“主導(dǎo)”,國(guó)產(chǎn)廠商必須找到一種方式,讓開發(fā)者愿意主動(dòng)為國(guó)產(chǎn)平臺(tái)編寫原生代碼、貢獻(xiàn)開源庫(kù),而不是僅僅把這里當(dāng)作CUDA的“備胎”。