DeepSeek V4有多強(qiáng) 架構(gòu)創(chuàng)新引領(lǐng)未來(3)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-04-28 17:08:27 正和島

V4-Flash則定位為明確的性價(jià)比之選。很多人看到Pro和Flash兩個(gè)檔位，第一反應(yīng)是“Flash就是降配版”，但實(shí)際并非如此。V4-Flash的推理能力與Pro接近，世界知識稍遜，而在Think Max模式下，性能可以大幅追近Pro：LiveCodeBench Flash Max達(dá)到91.6，Codeforces Flash Max Rating達(dá)到3052，與Pro Max的差距已相當(dāng)有限。

V4在Agent能力上的提升幅度引人注目。但這一點(diǎn)需要更細(xì)致的理解。Agent任務(wù)的核心約束一直是上下文管理：任務(wù)鏈越長，需要維護(hù)的狀態(tài)越多，有限的上下文窗口很快就成為瓶頸。V4的1M窗口意味著，Agent可以在更長的操作鏈里保持狀態(tài)連貫，處理更大規(guī)模的代碼庫，跨越更多文檔進(jìn)行推理。

不只是模型變聰明了，底層條件也變了。V4專門針對 Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產(chǎn)品做了適配優(yōu)化。后訓(xùn)練階段，Agent是作為與數(shù)學(xué)、代碼并列的獨(dú)立方向單獨(dú)訓(xùn)練的；工具調(diào)用格式從JSON換成了帶特殊token的XML結(jié)構(gòu)以降低錯(cuò)誤率；跨輪次的推理痕跡在工具調(diào)用場景下完整保留，不再每輪清空。另外，DeepSeek還搭建了一套名為DSec的沙箱平臺，單集群可并發(fā)管理數(shù)十萬個(gè)沙箱實(shí)例，專門用來支撐Agent強(qiáng)化學(xué)習(xí)訓(xùn)練和評測。

這些細(xì)節(jié)指向同一個(gè)方向：V4不是在做“更強(qiáng)的聊天機(jī)器人”，而是在做“能干活的操作系統(tǒng)”。

另外，V4最核心的技術(shù)改動(dòng)，是在注意力層。傳統(tǒng)Transformer的注意力機(jī)制，每個(gè)token要和前面所有token逐一計(jì)算相似度。上下文從10萬拉到100萬，計(jì)算量增長的不是10倍，而是100倍。V4的做法是把注意力拆成兩種，交替疊用：一種是CSA（壓縮稀疏注意力），先把每若干token的KV緩存合并成摘要，再讓每個(gè)query只在這些摘要里挑選最相關(guān)的top-k條去算注意力——相當(dāng)于既壓縮了“要看的內(nèi)容”，又只挑“值得看的”去算；另一種是HCA（高壓縮注意力），用更激進(jìn)的壓縮率把更長區(qū)間的token合并為一條，但保持稠密注意力。兩種機(jī)制交替疊加，再加上一個(gè)滑動(dòng)窗口分支處理“離得近的token之間的細(xì)節(jié)依賴”，形成了一套粗粒度與細(xì)粒度、稀疏與稠密的組合拳。

首頁上一頁 1 234 5 6...全文共 8 頁下一頁

關(guān)閉

DeepSeek V4有多強(qiáng) 架構(gòu)創(chuàng)新引領(lǐng)未來(3)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)