V4-Flash則定位為明確的性價(jià)比之選。很多人看到Pro和Flash兩個(gè)檔位,第一反應(yīng)是“Flash就是降配版”,但實(shí)際并非如此。V4-Flash的推理能力與Pro接近,世界知識稍遜,而在Think Max模式下,性能可以大幅追近Pro:LiveCodeBench Flash Max達(dá)到91.6,Codeforces Flash Max Rating達(dá)到3052,與Pro Max的差距已相當(dāng)有限。
V4在Agent能力上的提升幅度引人注目。但這一點(diǎn)需要更細(xì)致的理解。Agent任務(wù)的核心約束一直是上下文管理:任務(wù)鏈越長,需要維護(hù)的狀態(tài)越多,有限的上下文窗口很快就成為瓶頸。V4的1M窗口意味著,Agent可以在更長的操作鏈里保持狀態(tài)連貫,處理更大規(guī)模的代碼庫,跨越更多文檔進(jìn)行推理。
不只是模型變聰明了,底層條件也變了。V4專門針對 Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產(chǎn)品做了適配優(yōu)化。后訓(xùn)練階段,Agent是作為與數(shù)學(xué)、代碼并列的獨(dú)立方向單獨(dú)訓(xùn)練的;工具調(diào)用格式從JSON換成了帶特殊token的XML結(jié)構(gòu)以降低錯(cuò)誤率;跨輪次的推理痕跡在工具調(diào)用場景下完整保留,不再每輪清空。另外,DeepSeek還搭建了一套名為DSec的沙箱平臺,單集群可并發(fā)管理數(shù)十萬個(gè)沙箱實(shí)例,專門用來支撐Agent強(qiáng)化學(xué)習(xí)訓(xùn)練和評測。
這些細(xì)節(jié)指向同一個(gè)方向:V4不是在做“更強(qiáng)的聊天機(jī)器人”,而是在做“能干活的操作系統(tǒng)”。
另外,V4最核心的技術(shù)改動(dòng),是在注意力層。傳統(tǒng)Transformer的注意力機(jī)制,每個(gè)token要和前面所有token逐一計(jì)算相似度。上下文從10萬拉到100萬,計(jì)算量增長的不是10倍,而是100倍。V4的做法是把注意力拆成兩種,交替疊用:一種是CSA(壓縮稀疏注意力),先把每若干token的KV緩存合并成摘要,再讓每個(gè)query只在這些摘要里挑選最相關(guān)的top-k條去算注意力——相當(dāng)于既壓縮了“要看的內(nèi)容”,又只挑“值得看的”去算;另一種是HCA(高壓縮注意力),用更激進(jìn)的壓縮率把更長區(qū)間的token合并為一條,但保持稠密注意力。兩種機(jī)制交替疊加,再加上一個(gè)滑動(dòng)窗口分支處理“離得近的token之間的細(xì)節(jié)依賴”,形成了一套粗粒度與細(xì)粒度、稀疏與稠密的組合拳。