國產(chǎn)算力“大考”通關(guān) 從能用到好用

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-05-10 11:38:05 藍(lán)洞商業(yè)

AI能力的重要落點是物理世界。今年年初，海外科技圈對中國算力問題給予了極大關(guān)注。馬斯克在一月份的播客中提到，中國在AI算力上將遠(yuǎn)超世界其他地區(qū)。二月份，OpenAI首席執(zhí)行官奧特曼也表示，中國在人工智能領(lǐng)域的技術(shù)進(jìn)步快得驚人。

2025年可以說是供給端的集結(jié)之年。摩爾線程、沐曦股份等國產(chǎn)GPU接連登陸資本市場，進(jìn)一步加深了國產(chǎn)大模型的產(chǎn)業(yè)基礎(chǔ)。2026年，變化向產(chǎn)業(yè)鏈下游傳導(dǎo)，四月下旬，多款國產(chǎn)大模型發(fā)布了新版本。4月20日，月之暗面推出了擅長長程代碼編寫的Kimi K2.6模型。4月24日，DeepSeek V4發(fā)布，隨后美團LongCat-2.0-Preview開放測試，兩者總參數(shù)規(guī)模均突破萬億，并且都支持1M超長上下文。

值得一提的是，DeepSeek V4完成了從英偉達(dá)體系向華為昇騰平臺的遷移與適配；而美團LongCat-2.0則是訓(xùn)練推理全程基于國產(chǎn)算力的萬億參數(shù)大模型，使用了5萬至6萬張國產(chǎn)算力芯片。長期以來，中國AI從業(yè)者普遍策略是采用現(xiàn)有成熟方案，現(xiàn)在國內(nèi)AI企業(yè)開始嘗試鋪設(shè)自己的軌道。

在荒野修路，科幻作家阿瑟·克拉克的答案是讓不可能本身成為前進(jìn)的起點。CUDA生態(tài)經(jīng)過十幾年打磨已成為一個功能強大、工具完備的開發(fā)平臺。遷移代碼的過程意味著開發(fā)團隊需要做大量底層框架的重構(gòu)工作。最終DeepSeek做到了，V4發(fā)布兩天后，摩根大通報告指出，V4成功適配華為昇騰芯片，驗證了國產(chǎn)算力在前沿AI推理上的可行性；通過混合注意力架構(gòu)等底層技術(shù)創(chuàng)新，顯著降低了推理成本。DeepSeek用技術(shù)極客的方式降本增效，通過重寫半個大模型的工作量完成硬核遷移。同日開放測試的美團LongCat-2.0-Preview，則直接跑在國產(chǎn)算力之上。

國產(chǎn)算力在工程層面面臨多個難點。以LongCat-2.0-Preview為例，第一個難點是物理層面的。國產(chǎn)硬件底座的顯存容量和帶寬與英偉達(dá)芯片有差異，訓(xùn)練部署萬億參數(shù)模型時，美團團隊需花更多精力調(diào)試并行策略、優(yōu)化顯存。第二個難點是軟件生態(tài)的成熟度，針對國產(chǎn)芯片特性確保訓(xùn)練全程精確可復(fù)現(xiàn)，團隊需要重寫和優(yōu)化核心算子及自研全確定性的算子。第三個難點是萬卡集群穩(wěn)定性，在動用5萬至6萬張國產(chǎn)算力卡的超大規(guī)模集群上，硬件故障難以避免，為此團隊構(gòu)建了一套完整的容錯與自動恢復(fù)體系。此外，針對國產(chǎn)硬件特點，團隊在訓(xùn)練框架和模型結(jié)構(gòu)進(jìn)行針對性設(shè)計，打破了通用框架的適配局限，提升了計算性能。

12 全文共 2 頁下一頁

關(guān)閉

國產(chǎn)算力“大考”通關(guān) 從能用到好用

相關(guān)新聞

今日熱點

頻道熱點