中國大模型能力在過去一年中已經(jīng)躋身全球第一梯隊(duì)。MiniMax M2.5、Kimi K2.5的Token消耗量在OpenRouter上長期位居前列,DeepSeek V4也常被拿來與GPT-5對標(biāo)。這些模型之所以能夠運(yùn)行,是因?yàn)楝F(xiàn)有的算力底座足夠強(qiáng)大。

然而,當(dāng)進(jìn)入Agent時(shí)代時(shí),現(xiàn)有的“夠用”可能不再足夠。“能跑”和“跑得舒服”是兩碼事。在今年的鯤鵬昇騰開發(fā)者大會上,昇騰指出,過去一年模型調(diào)用頻次暴漲了50到100倍,序列長度從Chatbot時(shí)代的4K飆升至接近1M,相當(dāng)于250倍的跨度。MoE推理對時(shí)延的要求也越來越苛刻,正從10毫秒向1毫秒級別逼近。

這不僅僅是模型變大的問題,而是整個(gè)算力底座的底層邏輯需要被重寫。真正的問題在于,當(dāng)Agent的需求以指數(shù)級增長時(shí),現(xiàn)有算力架構(gòu)還能支撐多久?基于這一視角,昇騰今年在峰會上強(qiáng)調(diào)了超節(jié)點(diǎn)架構(gòu)創(chuàng)新、軟件全面開源開放以及開發(fā)者體驗(yàn)升級,旨在讓算力底座從“能跑模型”進(jìn)化到“天然親和Agent”。

超節(jié)點(diǎn)架構(gòu)使得數(shù)千個(gè)NPU之間能夠更高效地協(xié)同工作。在Chatbot時(shí)代,序列長度約4K,KVCache命中一次就夠,NPU之間的通信壓力不大。但進(jìn)入Agent時(shí)代,推理鏈路拉長到接近1M tokens,KVCache需要跨NPU頻繁跳躍。這時(shí),問題不僅在于帶寬是否足夠,而是如何優(yōu)化NPU之間的通信。傳統(tǒng)方案下,每個(gè)NPU掛載獨(dú)立內(nèi)存,跨NPU訪問要走消息語義,單次通信在微秒級。而昇騰超節(jié)點(diǎn)通過靈衢互聯(lián)協(xié)議和總線控制器,實(shí)現(xiàn)了全域內(nèi)存統(tǒng)一編址,使得NPU和CPU可以直接用虛擬地址訪問任意位置,無需改代碼、無需路由、無需拷貝。此外,通過片上內(nèi)存和DDR的分層池化能力,查詢時(shí)延大幅降低,訓(xùn)練和推理吞吐相比傳統(tǒng)集群提升3到4倍。