英偉達憑借H100/A100系列GPU和CUDA生態(tài),在這個階段建立了看似難以逾越的護城河。但大模型做出來之后,真正決定商業(yè)化速度和產(chǎn)業(yè)滲透深度的,是推理。尤其是以O(shè)penClaw、Hermes為代表的Agent應(yīng)用爆發(fā)后,推理的成本結(jié)構(gòu)發(fā)生了根本性變化。Agent任務(wù)的特點是上下文越來越長、記憶越來越深、工具調(diào)用越來越頻繁。在這個場景下,GPU的顯存會被KV緩存撐爆,大模型的推理質(zhì)量急劇下降。
推理的第一個瓶頸,不是算力不夠,是“記憶”和“計算”在搶同一塊顯存。這正是國產(chǎn)芯片最大的短板所在。受限于先進制程,國產(chǎn)GPU在算力峰值上尚可追趕,但在顯存容量和帶寬上與英偉達存在代際差距。英偉達最新一代Rubin GPU搭載288GB HBM4內(nèi)存,而國產(chǎn)芯片如昇騰910B的顯存容量為64GB。如果按照傳統(tǒng)架構(gòu)跑長上下文推理,這個差距幾乎是致命的。
DeepSeek V4的解題思路,不是硬拼硬件,而是從架構(gòu)層面重構(gòu)了“記憶”和“計算”的關(guān)系。這涉及兩個關(guān)鍵創(chuàng)新:其一,CSA/HCA混合注意力機制大幅壓縮了KV緩存占用,1M上下文下,V4-Pro的KV緩存僅為V3.2的10%,V4-Flash更是壓到7%。其二,據(jù)公開論文推測,V4采用的Engram架構(gòu)把模型里那些“死記硬背”的靜態(tài)知識抽出來放入獨立的內(nèi)存表,推理時CPU負責“查字典”檢索知識,GPU只負責“想邏輯”計算推理,兩者完全重疊執(zhí)行。當GPU在算上一個詞的邏輯時,CPU已經(jīng)把下一個詞所需的知識搬到了門口。
延遲被這種并行架構(gòu)徹底掩蓋。結(jié)果是什么?一個原本需要80GB顯存才能跑的長上下文推理任務(wù),在Engram架構(gòu)下可能只需要8GB顯存。英偉達引以為傲的HBM顯存稀缺性,在這套架構(gòu)面前被大幅削弱。國產(chǎn)芯片那64GB的顯存容量,突然變得夠用了。
這解釋了為什么黃仁勛會在近期訪談中做出一個意味深長的假設(shè)。他說,如果DeepSeek新模型在華為平臺上首發(fā),“這一天對美國來說將是一個可怕的結(jié)果,因為這意味著AI模型被優(yōu)化為在中國AI硬件上表現(xiàn)最佳,而這些模型擴散到全球之后,就會推動中國技術(shù)成為世界標準。”