DeepSeek V4有多強架構創(chuàng)新引領未來(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2026-04-28 17:08:27 正和島

這也是為什么長期以來，百萬字上下文要么是Google Gemini的獨家王牌，要么是實驗室里的漂亮數字，太貴了，用不起。V4給出的解法是一種全新的混合注意力架構。通俗地解釋，就像你在讀一本1000頁的書時找某個觀點的關聯內容。笨辦法是把目標頁和其他999頁逐一比對，工作量隨頁數翻倍而變成四倍。聰明的辦法是：先粗略判斷哪些頁面可能相關（稀疏選擇），再把相關頁面壓縮成摘要（token壓縮），兩步疊加之后，工作量增長曲線被大幅壓平。

這正是V4的核心創(chuàng)新：CSA（壓縮稀疏注意力）和HCA（高度壓縮注意力）的混合架構。在1M上下文設置下，V4-Pro的單token推理算力只有上一代V3.2的27%，KV緩存僅需10%；更經濟的V4-Flash版本則將這兩個數字分別壓到了10%和7%。換句話說，上下文長度擴大了近8倍，但推理成本反而下降了。

V4一口氣發(fā)布兩個版本：DeepSeek-V4-Pro總參數1.6萬億、每次推理激活49B；DeepSeek-V4-Flash總參數284B、激活13B。兩者均原生支持100萬token上下文。理解這兩個數字需要先理解MoE（混合專家）架構。簡單講，V4內部有大量“專家”子網絡，每次處理信息時只激活其中一小部分?？倕禌Q定知識容量，激活參數決定推理成本。這就像一家公司有1600個身懷絕技的員工，但每個項目只調49人上陣，可以按需靈活組合。

在能力評估上，DeepSeek的措辭相當克制。發(fā)布稿明確表示：V4-Pro的Agent能力優(yōu)于Sonnet 4.5，交付質量接近Opus 4.6非思考模式，但仍與后者思考模式存在差距。在內部85名開發(fā)者和研究人員的調研中，超過九成認為V4-Pro已可作為首選或接近首選的編程模型。在數學、STEM、競賽型代碼等推理密集型任務上，V4-Pro超越所有已知開源模型，比肩頂級閉源產品；在Codeforces人類選手排行榜上，V4-Pro-Max位列第23名；但在世界知識方面——事實性信息的覆蓋廣度，僅稍遜于Gemini-Pro-3.1。這個差距來自數據：Google擁有搜索引擎索引和更大規(guī)模網頁抓取的結構性優(yōu)勢，不是算法可以短期彌補的。

首頁上一頁 123 4 5...全文共 8 頁下一頁

關閉

DeepSeek V4有多強 架構創(chuàng)新引領未來(2)

相關新聞

今日熱點

頻道熱點

DeepSeek V4有多強架構創(chuàng)新引領未來(2)