V4還部分關(guān)鍵計(jì)算從英偉達(dá)黑盒中抽離出來(lái),變成更可遷移、可適配的自定義計(jì)算路徑。同時(shí),V4在昇騰950PR上的推理速度顯著提升,能耗也明顯下降,單卡性能在特定低精度場(chǎng)景下達(dá)到英偉達(dá)特供H20的兩倍以上。
盡管V4并沒(méi)有全面替代英偉達(dá)的GPU和CUDA,但它展示了在國(guó)產(chǎn)芯片上逐步實(shí)現(xiàn)推理國(guó)產(chǎn)化的可能性。這一步非?,F(xiàn)實(shí)且具有商業(yè)價(jià)值。模型公司長(zhǎng)期燒錢(qián)的大頭在于推理,誰(shuí)能更便宜、更穩(wěn)定地承接推理需求,誰(shuí)就能在產(chǎn)業(yè)應(yīng)用中獲得優(yōu)勢(shì)。
V4對(duì)產(chǎn)業(yè)應(yīng)用的影響同樣顯著。它在1M上下文+Agent能力的前提下繼續(xù)壓價(jià),使得企業(yè)在高頻調(diào)用時(shí)的成本大幅降低。例如,V4-Flash的緩存命中輸入價(jià)格僅為0.2元/百萬(wàn)tokens,緩存未命中輸入1元/百萬(wàn)tokens,輸出2元/百萬(wàn)tokens。與同類國(guó)產(chǎn)模型相比,V4的價(jià)格更具競(jìng)爭(zhēng)力。
1M上下文意味著模型可以一次讀完整代碼倉(cāng)、厚厚的合同包、幾百頁(yè)招股書(shū)或長(zhǎng)期會(huì)議紀(jì)要,這對(duì)于企業(yè)應(yīng)用至關(guān)重要。過(guò)去很多企業(yè)因上下文不夠或價(jià)格太貴而受限,V4解決了這些問(wèn)題,使模型成為企業(yè)最高頻使用的工具。
DeepSeek V4在國(guó)產(chǎn)算力尚不成熟的底座上,通過(guò)極致的工程投入和軟硬件協(xié)同創(chuàng)新,實(shí)現(xiàn)了接近頂級(jí)閉源模型的推理與Agent能力。這不僅為后續(xù)模型鋪設(shè)了一條可借鑒的路徑,也為整個(gè)AI供應(yīng)鏈的自主可控注入了強(qiáng)心針。在外部環(huán)境充滿不確定性的當(dāng)下,這份在限制中仍能突破的韌性,比單純的參數(shù)指標(biāo)更值得尊重。