AI能力的重要落點(diǎn)是物理世界。今年年初,海外科技圈對(duì)中國(guó)算力問(wèn)題給予了極大關(guān)注。馬斯克在一月份的播客中提到,中國(guó)在AI算力上將遠(yuǎn)超世界其他地區(qū)。二月份,OpenAI首席執(zhí)行官奧特曼也表示,中國(guó)在人工智能領(lǐng)域的技術(shù)進(jìn)步快得驚人。
2025年可以說(shuō)是供給端的集結(jié)之年。摩爾線程、沐曦股份等國(guó)產(chǎn)GPU接連登陸資本市場(chǎng),進(jìn)一步加深了國(guó)產(chǎn)大模型的產(chǎn)業(yè)基礎(chǔ)。2026年,變化向產(chǎn)業(yè)鏈下游傳導(dǎo),四月下旬,多款國(guó)產(chǎn)大模型發(fā)布了新版本。4月20日,月之暗面推出了擅長(zhǎng)長(zhǎng)程代碼編寫(xiě)的Kimi K2.6模型。4月24日,DeepSeek V4發(fā)布,隨后美團(tuán)LongCat-2.0-Preview開(kāi)放測(cè)試,兩者總參數(shù)規(guī)模均突破萬(wàn)億,并且都支持1M超長(zhǎng)上下文。
值得一提的是,DeepSeek V4完成了從英偉達(dá)體系向華為昇騰平臺(tái)的遷移與適配;而美團(tuán)LongCat-2.0則是訓(xùn)練推理全程基于國(guó)產(chǎn)算力的萬(wàn)億參數(shù)大模型,使用了5萬(wàn)至6萬(wàn)張國(guó)產(chǎn)算力芯片。長(zhǎng)期以來(lái),中國(guó)AI從業(yè)者普遍策略是采用現(xiàn)有成熟方案,現(xiàn)在國(guó)內(nèi)AI企業(yè)開(kāi)始嘗試鋪設(shè)自己的軌道。
在荒野修路,科幻作家阿瑟·克拉克的答案是讓不可能本身成為前進(jìn)的起點(diǎn)。CUDA生態(tài)經(jīng)過(guò)十幾年打磨已成為一個(gè)功能強(qiáng)大、工具完備的開(kāi)發(fā)平臺(tái)。遷移代碼的過(guò)程意味著開(kāi)發(fā)團(tuán)隊(duì)需要做大量底層框架的重構(gòu)工作。最終DeepSeek做到了,V4發(fā)布兩天后,摩根大通報(bào)告指出,V4成功適配華為昇騰芯片,驗(yàn)證了國(guó)產(chǎn)算力在前沿AI推理上的可行性;通過(guò)混合注意力架構(gòu)等底層技術(shù)創(chuàng)新,顯著降低了推理成本。DeepSeek用技術(shù)極客的方式降本增效,通過(guò)重寫(xiě)半個(gè)大模型的工作量完成硬核遷移。同日開(kāi)放測(cè)試的美團(tuán)LongCat-2.0-Preview,則直接跑在國(guó)產(chǎn)算力之上。
國(guó)產(chǎn)算力在工程層面面臨多個(gè)難點(diǎn)。以LongCat-2.0-Preview為例,第一個(gè)難點(diǎn)是物理層面的。國(guó)產(chǎn)硬件底座的顯存容量和帶寬與英偉達(dá)芯片有差異,訓(xùn)練部署萬(wàn)億參數(shù)模型時(shí),美團(tuán)團(tuán)隊(duì)需花更多精力調(diào)試并行策略、優(yōu)化顯存。第二個(gè)難點(diǎn)是軟件生態(tài)的成熟度,針對(duì)國(guó)產(chǎn)芯片特性確保訓(xùn)練全程精確可復(fù)現(xiàn),團(tuán)隊(duì)需要重寫(xiě)和優(yōu)化核心算子及自研全確定性的算子。第三個(gè)難點(diǎn)是萬(wàn)卡集群穩(wěn)定性,在動(dòng)用5萬(wàn)至6萬(wàn)張國(guó)產(chǎn)算力卡的超大規(guī)模集群上,硬件故障難以避免,為此團(tuán)隊(duì)構(gòu)建了一套完整的容錯(cuò)與自動(dòng)恢復(fù)體系。此外,針對(duì)國(guó)產(chǎn)硬件特點(diǎn),團(tuán)隊(duì)在訓(xùn)練框架和模型結(jié)構(gòu)進(jìn)行針對(duì)性設(shè)計(jì),打破了通用框架的適配局限,提升了計(jì)算性能。
DeepSeek的算法優(yōu)化降低了算力門(mén)檻,把模型價(jià)格打了下來(lái);美團(tuán)的工程實(shí)踐證明了國(guó)產(chǎn)芯片的可行性。這些探索為國(guó)產(chǎn)芯片生態(tài)沉淀出工程能力和經(jīng)驗(yàn)。梁文鋒曾說(shuō):“我們不是有意成為一條鯰魚(yú),只是不小心成了一條鯰魚(yú)”,如今“鯰魚(yú)效應(yīng)”已經(jīng)顯現(xiàn),DeepSeek并不獨(dú)行。
騰訊云的湯道生曾比喻稱(chēng):“大模型是發(fā)動(dòng)機(jī),使用者是駕駛員”。中國(guó)算力的發(fā)展依賴(lài)整條產(chǎn)業(yè)鏈協(xié)同進(jìn)步。制造端數(shù)據(jù)顯示,中國(guó)芯片產(chǎn)量不斷攀升。中芯國(guó)際、華虹半導(dǎo)體等企業(yè)正推進(jìn)多重曝光等工藝攻關(guān)。算力端方面,華為昇騰910C等產(chǎn)品表明,通過(guò)極致的集群線性加速比也能跑通體量巨大的模型訓(xùn)練。“得生態(tài)者得天下”。行業(yè)從業(yè)者意識(shí)到這一點(diǎn),寒武紀(jì)推出兼容主流框架的基礎(chǔ)軟件平臺(tái),降低開(kāi)發(fā)者遷移門(mén)檻;智源人工智能研究院牽頭開(kāi)源系統(tǒng)構(gòu)建統(tǒng)一底層接口,讓上層模型可以運(yùn)行在多種不同的國(guó)產(chǎn)芯片上。國(guó)內(nèi)互聯(lián)網(wǎng)大廠也有很多動(dòng)作,百度雙軌戰(zhàn)略、字節(jié)跳動(dòng)千億投入都在為算力底座尋找更優(yōu)解。據(jù)公開(kāi)數(shù)據(jù)梳理,過(guò)去幾年美團(tuán)至少布局了21家覆蓋半導(dǎo)體/智能硬件和通用大模型領(lǐng)域的相關(guān)公司,包括芯片算力層的摩爾線程、沐曦股份以及視覺(jué)芯片領(lǐng)域的愛(ài)芯元智等。
在技術(shù)長(zhǎng)期跟進(jìn)的同時(shí),產(chǎn)業(yè)資本也在做算力的投資人和共建者,逐漸形成正向循環(huán)。北京智源人工智能研究院院長(zhǎng)王仲遠(yuǎn)指出,當(dāng)下人工智能正處于第三次浪潮重要拐點(diǎn),大模型推動(dòng)其從弱人工智能邁向通用人工智能,更重要的是推動(dòng)機(jī)器人從1.0專(zhuān)用機(jī)器人時(shí)代進(jìn)入2.0通用具身智能時(shí)代。一方面,眾多國(guó)產(chǎn)廠商致力于讓大模型在云端提升智慧和邏輯推理嚴(yán)密性;另一方面,也要讓大模型“行萬(wàn)里路”,例如文心大模型被植入到自動(dòng)駕駛決策系統(tǒng)中,混元大模型的工業(yè)質(zhì)檢方案已出現(xiàn)在多個(gè)流水線場(chǎng)景。美團(tuán)的外賣(mài)、到店、酒旅業(yè)務(wù)構(gòu)成了日常生活中最復(fù)雜的任務(wù)執(zhí)行網(wǎng)絡(luò),這里有海量的真實(shí)場(chǎng)景。王興明確提出要將美團(tuán)App率先升級(jí)成“AI-powered App”,這意味著LongCat的訓(xùn)練目標(biāo)不僅是回答問(wèn)題,更要解決實(shí)際任務(wù)。這解釋了美團(tuán)為何強(qiáng)調(diào)打造物理世界的AI底座。從參數(shù)提升到算力跑通,國(guó)產(chǎn)大模型正在完成從“能用”到“好用”的進(jìn)階。這條路沒(méi)有捷徑,未來(lái)當(dāng)算法、算力、資金與場(chǎng)景持續(xù)產(chǎn)生化學(xué)反應(yīng),中國(guó)AI的故事也將從“單點(diǎn)突破”翻到“系統(tǒng)進(jìn)化”這一頁(yè)。