黃仁勛將揭曉世界前所未見新芯片 推理時代來臨。3月中旬,NVIDIA將在加州圣何塞召開GTC大會,這是AI領(lǐng)域最受矚目的盛會之一。此前,黃仁勛宣布將推出一款“世界前所未見”的全新芯片。這一消息在資本市場引起了熱議。目前主流觀點認(rèn)為,這款芯片最有可能是融入Groq LPU(語言處理單元)設(shè)計的全新推理產(chǎn)品。
如果作為現(xiàn)有GPU的插件,數(shù)據(jù)傳輸仍然要經(jīng)過PCIe或NVLink等外部接口,這會引入新的延遲,部分抵消SRAM的低延遲優(yōu)勢。更理想的方案是像Cerebras那樣,打造一個專為推理設(shè)計的、以SRAM為中心的全新計算架構(gòu)。
隨著新一代Agent應(yīng)用如“小龍蝦”(OpenClaw)的火爆,全球算力需求結(jié)構(gòu)正發(fā)生明顯變化,市場重心從訓(xùn)練轉(zhuǎn)向推理。據(jù)德勤《2026科技、傳媒和電信行業(yè)預(yù)測》,到2026年,“推理”將占據(jù)全部AI計算能力的三分之二。未來將出現(xiàn)價值數(shù)十億美元的推理專用優(yōu)化芯片,部署在數(shù)據(jù)中心和企業(yè)服務(wù)器中,部分芯片的功耗將與通用AI芯片相當(dāng)甚至更高。
對于此次大會,業(yè)界推測最大的亮點除了英偉達(dá)可能正式揭曉Rubin及下一代Feynman架構(gòu)GPU的核心技術(shù)細(xì)節(jié)外,還可能推出整合了LPU技術(shù)的全新推理芯片。這將是英偉達(dá)首次在核心AI算力產(chǎn)品線中大規(guī)模引入外部架構(gòu)。
中信證券稱,此前NVIDIA推出的Rubin CPX針對Prefill降本需求,在對Groq收購后,本次或?qū)⑼瞥鯨PU或“類LPU”芯片來實現(xiàn)Decode提效。在推理過程中,模型通常經(jīng)歷兩階段:pre-fill階段處理用戶輸入;decode階段逐Token生成輸出結(jié)果。實際影響用戶推理體驗的關(guān)鍵在于decode階段的生成速度與延遲。基于GPU的推理架構(gòu)中,由于大量模型參數(shù)存放于HBM中,頻繁的數(shù)據(jù)搬運(yùn)會影響模型decode階段的時效性。而Groq LPU采用離計算核心更近的存儲單元SRAM來存儲模型參數(shù),提供高達(dá)80TB/s的內(nèi)存帶寬,遠(yuǎn)超GPU架構(gòu)。
不過,純SRAM方案在容量上無法勝任當(dāng)前動輒千億、萬億參數(shù)的大模型。莊昌磊表示,英偉達(dá)可能采用類似AMD 3D V-Cache的技術(shù),通過臺積電的SoIC混合鍵合技術(shù),將專為推理加速設(shè)計的、包含大量SRAM的LPU單元直接3D堆疊在GPU核心晶圓上。
對于3D堆疊方案,AMD等頭部廠商已有布局。2021年AMD公布3D垂直緩存技術(shù),可將額外的7nm SRAM緩存垂直堆疊在Ryzen計算小芯片的頂部。2024年富士通介紹旗下MONAKA處理器采用3D SRAM技術(shù),計劃2027年出貨。東方證券認(rèn)為,SRAM 3D堆疊方案可通過垂直堆疊存儲單元的方法提升密度,規(guī)避傳統(tǒng)SRAM容量受面積密度限制的問題。中信證券也認(rèn)為,未來的GPU與NPU都有可能采用3D堆疊SRAM的方式,實現(xiàn)訪存帶寬的飛躍,吸收LPU的優(yōu)勢,同時保持原有的軟件生態(tài)無需變動。
莊昌磊指出,復(fù)雜的AI芯片可能需要同時用SoIC堆疊LPU和GPU核心,再通過CoWoS與HBM封裝在一起。對于一些特定的、不需要HBM容量的純推理芯片,確實可以完全依靠3D堆疊SRAM來構(gòu)建,但這些芯片面向的是細(xì)分市場,量級難以撼動HBM+CoWoS的主流地位。SRAM 3D堆疊需要在晶圓制造階段進(jìn)行精確的晶圓對晶圓鍵合,技術(shù)和工藝與前端制造深度耦合,進(jìn)一步將價值從前道封裝前移。先進(jìn)制程的價值被進(jìn)一步放大,本土封測廠可能面臨被“擠出”高端市場的風(fēng)險,但也帶來了差異化競爭機(jī)遇。