DeepSeek V4再次讓全中國震動。參數(shù)規(guī)模、上下文長度、基準分數(shù)等技術(shù)指標已被各種報道反復(fù)對比,但這次發(fā)布的核心意義遠不止于此。
過去三年,中國大模型的訓(xùn)練和推理都依賴英偉達,國產(chǎn)芯片僅作為備份選項。一旦英偉達斷供,整個中國模型圈都會感到焦慮。然而,DeepSeek V4用實力證明,一個前沿的萬億參數(shù)級大模型可以在國產(chǎn)算力上穩(wěn)定高效地運行。這件事的意義已經(jīng)超越了模型的技術(shù)指標本身。
要理解這次國產(chǎn)化適配的難度,需要了解英偉達的芯片帝國。英偉達不僅擁有GPU芯片家族,還有NVLink、NVSwitch實現(xiàn)芯片間互聯(lián)的高速網(wǎng)絡(luò),以及CUDA這一AI操作系統(tǒng)。它構(gòu)建了一個高度優(yōu)化的生態(tài)系統(tǒng),從底層算子到并行計算、內(nèi)存管理、分布式通信,全鏈路都為英偉達GPU量身定制。全球頂級大模型幾乎都生長在這片生態(tài)上。
切換到國產(chǎn)算力則面臨完全不同的情形。硬件架構(gòu)、互聯(lián)方式、軟件棧成熟度等方面存在巨大差異。DeepSeek V4在國產(chǎn)芯片上的適配不僅是簡單的換引擎,而是給一輛已經(jīng)在高速公路上行駛的賽車切換到一條仍在鋪設(shè)中的山路。稍有不慎,就會出現(xiàn)抖動、失速甚至無法前行。
DeepSeek V4在基于國產(chǎn)推理芯片上實現(xiàn)了突破,深度適配華為昇騰950芯片,寒武紀也在模型發(fā)布當日可穩(wěn)定運行,真正實現(xiàn)Day 0適配。這意味著前沿模型開始具備在國產(chǎn)芯片體系內(nèi)落地的可能性。
V4通過CSA + HCA混合注意力機制和KV Cache壓縮等長上下文優(yōu)化,降低了對顯存帶寬和成熟CUDA庫的依賴。此外,V4-Pro雖然總參數(shù)達到1.6萬億,但每次推理只激活約490億參數(shù);V4-Flash總參數(shù)2840億,每次激活約130億參數(shù)。這種設(shè)計減少了每次推理的計算壓力,使長上下文和Agent場景更容易被推理卡承接。
V4還部分關(guān)鍵計算從英偉達黑盒中抽離出來,變成更可遷移、可適配的自定義計算路徑。同時,V4在昇騰950PR上的推理速度顯著提升,能耗也明顯下降,單卡性能在特定低精度場景下達到英偉達特供H20的兩倍以上。
盡管V4并沒有全面替代英偉達的GPU和CUDA,但它展示了在國產(chǎn)芯片上逐步實現(xiàn)推理國產(chǎn)化的可能性。這一步非?,F(xiàn)實且具有商業(yè)價值。模型公司長期燒錢的大頭在于推理,誰能更便宜、更穩(wěn)定地承接推理需求,誰就能在產(chǎn)業(yè)應(yīng)用中獲得優(yōu)勢。
V4對產(chǎn)業(yè)應(yīng)用的影響同樣顯著。它在1M上下文+Agent能力的前提下繼續(xù)壓價,使得企業(yè)在高頻調(diào)用時的成本大幅降低。例如,V4-Flash的緩存命中輸入價格僅為0.2元/百萬tokens,緩存未命中輸入1元/百萬tokens,輸出2元/百萬tokens。與同類國產(chǎn)模型相比,V4的價格更具競爭力。
1M上下文意味著模型可以一次讀完整代碼倉、厚厚的合同包、幾百頁招股書或長期會議紀要,這對于企業(yè)應(yīng)用至關(guān)重要。過去很多企業(yè)因上下文不夠或價格太貴而受限,V4解決了這些問題,使模型成為企業(yè)最高頻使用的工具。
DeepSeek V4在國產(chǎn)算力尚不成熟的底座上,通過極致的工程投入和軟硬件協(xié)同創(chuàng)新,實現(xiàn)了接近頂級閉源模型的推理與Agent能力。這不僅為后續(xù)模型鋪設(shè)了一條可借鑒的路徑,也為整個AI供應(yīng)鏈的自主可控注入了強心針。在外部環(huán)境充滿不確定性的當下,這份在限制中仍能突破的韌性,比單純的參數(shù)指標更值得尊重。