黃仁勛將揭曉世界前所未見新芯片推理時代來臨

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-03-12 09:01:51 中國能源網(wǎng)

黃仁勛將揭曉世界前所未見新芯片推理時代來臨。3月中旬，NVIDIA將在加州圣何塞召開GTC大會，這是AI領(lǐng)域最受矚目的盛會之一。此前，黃仁勛宣布將推出一款“世界前所未見”的全新芯片。這一消息在資本市場引起了熱議。目前主流觀點認(rèn)為，這款芯片最有可能是融入Groq LPU（語言處理單元）設(shè)計的全新推理產(chǎn)品。

如果作為現(xiàn)有GPU的插件，數(shù)據(jù)傳輸仍然要經(jīng)過PCIe或NVLink等外部接口，這會引入新的延遲，部分抵消SRAM的低延遲優(yōu)勢。更理想的方案是像Cerebras那樣，打造一個專為推理設(shè)計的、以SRAM為中心的全新計算架構(gòu)。

隨著新一代Agent應(yīng)用如“小龍蝦”（OpenClaw）的火爆，全球算力需求結(jié)構(gòu)正發(fā)生明顯變化，市場重心從訓(xùn)練轉(zhuǎn)向推理。據(jù)德勤《2026科技、傳媒和電信行業(yè)預(yù)測》，到2026年，“推理”將占據(jù)全部AI計算能力的三分之二。未來將出現(xiàn)價值數(shù)十億美元的推理專用優(yōu)化芯片，部署在數(shù)據(jù)中心和企業(yè)服務(wù)器中，部分芯片的功耗將與通用AI芯片相當(dāng)甚至更高。

對于此次大會，業(yè)界推測最大的亮點除了英偉達(dá)可能正式揭曉Rubin及下一代Feynman架構(gòu)GPU的核心技術(shù)細(xì)節(jié)外，還可能推出整合了LPU技術(shù)的全新推理芯片。這將是英偉達(dá)首次在核心AI算力產(chǎn)品線中大規(guī)模引入外部架構(gòu)。

中信證券稱，此前NVIDIA推出的Rubin CPX針對Prefill降本需求，在對Groq收購后，本次或?qū)⑼瞥鯨PU或“類LPU”芯片來實現(xiàn)Decode提效。在推理過程中，模型通常經(jīng)歷兩階段：pre-fill階段處理用戶輸入；decode階段逐Token生成輸出結(jié)果。實際影響用戶推理體驗的關(guān)鍵在于decode階段的生成速度與延遲。基于GPU的推理架構(gòu)中，由于大量模型參數(shù)存放于HBM中，頻繁的數(shù)據(jù)搬運(yùn)會影響模型decode階段的時效性。而Groq LPU采用離計算核心更近的存儲單元SRAM來存儲模型參數(shù)，提供高達(dá)80TB/s的內(nèi)存帶寬，遠(yuǎn)超GPU架構(gòu)。

不過，純SRAM方案在容量上無法勝任當(dāng)前動輒千億、萬億參數(shù)的大模型。莊昌磊表示，英偉達(dá)可能采用類似AMD 3D V-Cache的技術(shù)，通過臺積電的SoIC混合鍵合技術(shù)，將專為推理加速設(shè)計的、包含大量SRAM的LPU單元直接3D堆疊在GPU核心晶圓上。

對于3D堆疊方案，AMD等頭部廠商已有布局。2021年AMD公布3D垂直緩存技術(shù)，可將額外的7nm SRAM緩存垂直堆疊在Ryzen計算小芯片的頂部。2024年富士通介紹旗下MONAKA處理器采用3D SRAM技術(shù)，計劃2027年出貨。東方證券認(rèn)為，SRAM 3D堆疊方案可通過垂直堆疊存儲單元的方法提升密度，規(guī)避傳統(tǒng)SRAM容量受面積密度限制的問題。中信證券也認(rèn)為，未來的GPU與NPU都有可能采用3D堆疊SRAM的方式，實現(xiàn)訪存帶寬的飛躍，吸收LPU的優(yōu)勢，同時保持原有的軟件生態(tài)無需變動。

莊昌磊指出，復(fù)雜的AI芯片可能需要同時用SoIC堆疊LPU和GPU核心，再通過CoWoS與HBM封裝在一起。對于一些特定的、不需要HBM容量的純推理芯片，確實可以完全依靠3D堆疊SRAM來構(gòu)建，但這些芯片面向的是細(xì)分市場，量級難以撼動HBM+CoWoS的主流地位。SRAM 3D堆疊需要在晶圓制造階段進(jìn)行精確的晶圓對晶圓鍵合，技術(shù)和工藝與前端制造深度耦合，進(jìn)一步將價值從前道封裝前移。先進(jìn)制程的價值被進(jìn)一步放大，本土封測廠可能面臨被“擠出”高端市場的風(fēng)險，但也帶來了差異化競爭機(jī)遇。

(責(zé)任編輯：0882)

關(guān)閉

黃仁勛將揭曉世界前所未見新芯片 推理時代來臨

相關(guān)新聞

今日熱點

頻道熱點

黃仁勛將揭曉世界前所未見新芯片推理時代來臨