黃仁勛將揭曉世界前所未見新芯片 推理時代來臨。3月中旬,NVIDIA將在加州圣何塞召開GTC大會,這是AI領(lǐng)域最受矚目的盛會之一。此前,黃仁勛宣布將推出一款“世界前所未見”的全新芯片。這一消息在資本市場引起了熱議。目前主流觀點(diǎn)認(rèn)為,這款芯片最有可能是融入Groq LPU(語言處理單元)設(shè)計(jì)的全新推理產(chǎn)品。
如果作為現(xiàn)有GPU的插件,數(shù)據(jù)傳輸仍然要經(jīng)過PCIe或NVLink等外部接口,這會引入新的延遲,部分抵消SRAM的低延遲優(yōu)勢。更理想的方案是像Cerebras那樣,打造一個專為推理設(shè)計(jì)的、以SRAM為中心的全新計(jì)算架構(gòu)。
隨著新一代Agent應(yīng)用如“小龍蝦”(OpenClaw)的火爆,全球算力需求結(jié)構(gòu)正發(fā)生明顯變化,市場重心從訓(xùn)練轉(zhuǎn)向推理。據(jù)德勤《2026科技、傳媒和電信行業(yè)預(yù)測》,到2026年,“推理”將占據(jù)全部AI計(jì)算能力的三分之二。未來將出現(xiàn)價值數(shù)十億美元的推理專用優(yōu)化芯片,部署在數(shù)據(jù)中心和企業(yè)服務(wù)器中,部分芯片的功耗將與通用AI芯片相當(dāng)甚至更高。
對于此次大會,業(yè)界推測最大的亮點(diǎn)除了英偉達(dá)可能正式揭曉Rubin及下一代Feynman架構(gòu)GPU的核心技術(shù)細(xì)節(jié)外,還可能推出整合了LPU技術(shù)的全新推理芯片。這將是英偉達(dá)首次在核心AI算力產(chǎn)品線中大規(guī)模引入外部架構(gòu)。
中信證券稱,此前NVIDIA推出的Rubin CPX針對Prefill降本需求,在對Groq收購后,本次或?qū)⑼瞥鯨PU或“類LPU”芯片來實(shí)現(xiàn)Decode提效。在推理過程中,模型通常經(jīng)歷兩階段:pre-fill階段處理用戶輸入;decode階段逐Token生成輸出結(jié)果。實(shí)際影響用戶推理體驗(yàn)的關(guān)鍵在于decode階段的生成速度與延遲?;贕PU的推理架構(gòu)中,由于大量模型參數(shù)存放于HBM中,頻繁的數(shù)據(jù)搬運(yùn)會影響模型decode階段的時效性。而Groq LPU采用離計(jì)算核心更近的存儲單元SRAM來存儲模型參數(shù),提供高達(dá)80TB/s的內(nèi)存帶寬,遠(yuǎn)超GPU架構(gòu)。