昇騰從硬件到軟件提前布局迎接Agent時(shí)代挑戰(zhàn)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-06-02 23:54:58 智能相對論

中國大模型能力在過去一年中已經(jīng)躋身全球第一梯隊(duì)。MiniMax M2.5、Kimi K2.5的Token消耗量在OpenRouter上長期位居前列，DeepSeek V4也常被拿來與GPT-5對標(biāo)。這些模型之所以能夠運(yùn)行，是因?yàn)楝F(xiàn)有的算力底座足夠強(qiáng)大。

昇騰從硬件到軟件提前布局

然而，當(dāng)進(jìn)入Agent時(shí)代時(shí)，現(xiàn)有的“夠用”可能不再足夠。“能跑”和“跑得舒服”是兩碼事。在今年的鯤鵬昇騰開發(fā)者大會上，昇騰指出，過去一年模型調(diào)用頻次暴漲了50到100倍，序列長度從Chatbot時(shí)代的4K飆升至接近1M，相當(dāng)于250倍的跨度。MoE推理對時(shí)延的要求也越來越苛刻，正從10毫秒向1毫秒級別逼近。

昇騰從硬件到軟件提前布局迎接Agent時(shí)代挑戰(zhàn)

這不僅僅是模型變大的問題，而是整個(gè)算力底座的底層邏輯需要被重寫。真正的問題在于，當(dāng)Agent的需求以指數(shù)級增長時(shí)，現(xiàn)有算力架構(gòu)還能支撐多久？基于這一視角，昇騰今年在峰會上強(qiáng)調(diào)了超節(jié)點(diǎn)架構(gòu)創(chuàng)新、軟件全面開源開放以及開發(fā)者體驗(yàn)升級，旨在讓算力底座從“能跑模型”進(jìn)化到“天然親和Agent”。

昇騰從硬件到軟件提前布局迎接Agent時(shí)代挑戰(zhàn)

超節(jié)點(diǎn)架構(gòu)使得數(shù)千個(gè)NPU之間能夠更高效地協(xié)同工作。在Chatbot時(shí)代，序列長度約4K，KVCache命中一次就夠，NPU之間的通信壓力不大。但進(jìn)入Agent時(shí)代，推理鏈路拉長到接近1M tokens，KVCache需要跨NPU頻繁跳躍。這時(shí)，問題不僅在于帶寬是否足夠，而是如何優(yōu)化NPU之間的通信。傳統(tǒng)方案下，每個(gè)NPU掛載獨(dú)立內(nèi)存，跨NPU訪問要走消息語義，單次通信在微秒級。而昇騰超節(jié)點(diǎn)通過靈衢互聯(lián)協(xié)議和總線控制器，實(shí)現(xiàn)了全域內(nèi)存統(tǒng)一編址，使得NPU和CPU可以直接用虛擬地址訪問任意位置，無需改代碼、無需路由、無需拷貝。此外，通過片上內(nèi)存和DDR的分層池化能力，查詢時(shí)延大幅降低，訓(xùn)練和推理吞吐相比傳統(tǒng)集群提升3到4倍。

12 全文共 2 頁下一頁

關(guān)閉

昇騰從硬件到軟件提前布局 迎接Agent時(shí)代挑戰(zhàn)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

昇騰從硬件到軟件提前布局迎接Agent時(shí)代挑戰(zhàn)