AI能力的重要落點是物理世界。今年年初,海外科技圈對中國算力問題給予了極大關(guān)注。馬斯克在一月份的播客中提到,中國在AI算力上將遠(yuǎn)超世界其他地區(qū)。二月份,OpenAI首席執(zhí)行官奧特曼也表示,中國在人工智能領(lǐng)域的技術(shù)進(jìn)步快得驚人。
2025年可以說是供給端的集結(jié)之年。摩爾線程、沐曦股份等國產(chǎn)GPU接連登陸資本市場,進(jìn)一步加深了國產(chǎn)大模型的產(chǎn)業(yè)基礎(chǔ)。2026年,變化向產(chǎn)業(yè)鏈下游傳導(dǎo),四月下旬,多款國產(chǎn)大模型發(fā)布了新版本。4月20日,月之暗面推出了擅長長程代碼編寫的Kimi K2.6模型。4月24日,DeepSeek V4發(fā)布,隨后美團LongCat-2.0-Preview開放測試,兩者總參數(shù)規(guī)模均突破萬億,并且都支持1M超長上下文。
值得一提的是,DeepSeek V4完成了從英偉達(dá)體系向華為昇騰平臺的遷移與適配;而美團LongCat-2.0則是訓(xùn)練推理全程基于國產(chǎn)算力的萬億參數(shù)大模型,使用了5萬至6萬張國產(chǎn)算力芯片。長期以來,中國AI從業(yè)者普遍策略是采用現(xiàn)有成熟方案,現(xiàn)在國內(nèi)AI企業(yè)開始嘗試鋪設(shè)自己的軌道。
在荒野修路,科幻作家阿瑟·克拉克的答案是讓不可能本身成為前進(jìn)的起點。CUDA生態(tài)經(jīng)過十幾年打磨已成為一個功能強大、工具完備的開發(fā)平臺。遷移代碼的過程意味著開發(fā)團隊需要做大量底層框架的重構(gòu)工作。最終DeepSeek做到了,V4發(fā)布兩天后,摩根大通報告指出,V4成功適配華為昇騰芯片,驗證了國產(chǎn)算力在前沿AI推理上的可行性;通過混合注意力架構(gòu)等底層技術(shù)創(chuàng)新,顯著降低了推理成本。DeepSeek用技術(shù)極客的方式降本增效,通過重寫半個大模型的工作量完成硬核遷移。同日開放測試的美團LongCat-2.0-Preview,則直接跑在國產(chǎn)算力之上。
國產(chǎn)算力在工程層面面臨多個難點。以LongCat-2.0-Preview為例,第一個難點是物理層面的。國產(chǎn)硬件底座的顯存容量和帶寬與英偉達(dá)芯片有差異,訓(xùn)練部署萬億參數(shù)模型時,美團團隊需花更多精力調(diào)試并行策略、優(yōu)化顯存。第二個難點是軟件生態(tài)的成熟度,針對國產(chǎn)芯片特性確保訓(xùn)練全程精確可復(fù)現(xiàn),團隊需要重寫和優(yōu)化核心算子及自研全確定性的算子。第三個難點是萬卡集群穩(wěn)定性,在動用5萬至6萬張國產(chǎn)算力卡的超大規(guī)模集群上,硬件故障難以避免,為此團隊構(gòu)建了一套完整的容錯與自動恢復(fù)體系。此外,針對國產(chǎn)硬件特點,團隊在訓(xùn)練框架和模型結(jié)構(gòu)進(jìn)行針對性設(shè)計,打破了通用框架的適配局限,提升了計算性能。
2025年11月,長達(dá)7年的“國產(chǎn)芯片替代”終于迎來顯著成果。黃仁勛宣布退出中國市場,高端芯片市場份額從95%降至0%,預(yù)計將失去500億美元營收
2025-12-02 10:47:13國產(chǎn)GPU要把算力搬到太空2026年2月3日,春運大幕拉開次日,烏魯木齊天山國際機場人頭攢動、銀鷹穿梭。在這座年吞吐量超3000萬級的國際樞紐機場,一場關(guān)乎中國民航核心技術(shù)自主化的變革悄然落地
2026-02-12 14:42:32國產(chǎn)芯片帶來大驚喜