這也是為什么長期以來,百萬字上下文要么是Google Gemini的獨家王牌,要么是實驗室里的漂亮數字,太貴了,用不起。V4給出的解法是一種全新的混合注意力架構。通俗地解釋,就像你在讀一本1000頁的書時找某個觀點的關聯內容。笨辦法是把目標頁和其他999頁逐一比對,工作量隨頁數翻倍而變成四倍。聰明的辦法是:先粗略判斷哪些頁面可能相關(稀疏選擇),再把相關頁面壓縮成摘要(token壓縮),兩步疊加之后,工作量增長曲線被大幅壓平。
這正是V4的核心創(chuàng)新:CSA(壓縮稀疏注意力)和HCA(高度壓縮注意力)的混合架構。在1M上下文設置下,V4-Pro的單token推理算力只有上一代V3.2的27%,KV緩存僅需10%;更經濟的V4-Flash版本則將這兩個數字分別壓到了10%和7%。換句話說,上下文長度擴大了近8倍,但推理成本反而下降了。
V4一口氣發(fā)布兩個版本:DeepSeek-V4-Pro總參數1.6萬億、每次推理激活49B;DeepSeek-V4-Flash總參數284B、激活13B。兩者均原生支持100萬token上下文。理解這兩個數字需要先理解MoE(混合專家)架構。簡單講,V4內部有大量“專家”子網絡,每次處理信息時只激活其中一小部分??倕禌Q定知識容量,激活參數決定推理成本。這就像一家公司有1600個身懷絕技的員工,但每個項目只調49人上陣,可以按需靈活組合。
在能力評估上,DeepSeek的措辭相當克制。發(fā)布稿明確表示:V4-Pro的Agent能力優(yōu)于Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與后者思考模式存在差距。在內部85名開發(fā)者和研究人員的調研中,超過九成認為V4-Pro已可作為首選或接近首選的編程模型。在數學、STEM、競賽型代碼等推理密集型任務上,V4-Pro超越所有已知開源模型,比肩頂級閉源產品;在Codeforces人類選手排行榜上,V4-Pro-Max位列第23名;但在世界知識方面——事實性信息的覆蓋廣度,僅稍遜于Gemini-Pro-3.1。這個差距來自數據:Google擁有搜索引擎索引和更大規(guī)模網頁抓取的結構性優(yōu)勢,不是算法可以短期彌補的。
中國人工智能公司DeepSeek發(fā)布了全新系列模型DeepSeek-V4的預覽版本,并同步開源。該系列模型在Agent能力、世界知識與推理性能三大維度上宣稱達到國內及開源領域的領先水平
2026-04-24 21:44:34DeepSeekV4和GPT5深度求索(DeepSeek)預計在未來幾周內推出新一代旗艦級人工智能模型,該模型主打強勁的代碼生成能力。這款代號為V4的新模型是DeepSeek于2024年12月發(fā)布的V3模型的迭代版本
2026-01-10 11:43:57DeepSeekV4被曝春節(jié)前后發(fā)布深度求索(DeepSeek)預計在未來幾周內推出新一代旗艦級人工智能模型,該模型主打強大的代碼生成能力。這款代號為V4的新模型是DeepSeek于2024年12月發(fā)布的V3模型的迭代版本
2026-01-10 10:11:10DeepSeekV4新模型或于春節(jié)前后發(fā)布