DeepSeek新模型曝光 Model1核心演進(jìn)方向揭曉!1月21日,DeepSeek-R1在GitHub上的代碼提交疑似劇透了DeepSeek的下一代模型。開發(fā)者發(fā)現(xiàn),DeepSeek旗下的FlashMLA優(yōu)化庫近期迎來了一波密集更新。
在一堆C++代碼中出現(xiàn)了一個從未見過的代號“Model1”。與以往的小修小補不同,代碼邏輯將Model1置于了與當(dāng)前旗艦V3.2完全獨立的平行分支。技術(shù)社區(qū)普遍認(rèn)為這是下一代大模型DeepSeek-V4的內(nèi)部開發(fā)代號。根據(jù)對相關(guān)代碼提交的解讀,Model1展示了DeepSeek下一代技術(shù)架構(gòu)的幾個核心演進(jìn)方向。
在架構(gòu)層面,Model1回歸到512維。DeepSeek V3曾以獨特的576維非對稱MLA驚艷四座,這在當(dāng)時是為了極致壓縮KV Cache的非常規(guī)手段。但在Model1中,head_dim參數(shù)被重新設(shè)定為512維。這一回歸標(biāo)準(zhǔn)的動作能更完美地對齊GPU的Tensor Core計算特性。DeepSeek可能已經(jīng)找到了無需依賴非標(biāo)維度也能實現(xiàn)高壓縮率的新方法,或許是代碼中提及的Engram機制,從而換取更高的計算通用性。
此外,Model1的代碼庫中出現(xiàn)了大量針對SM100,即英偉達(dá)最新算力硬件NVIDIA Blackwell B200的專用接口。這表明DeepSeek或許基本完成了對2026年旗艦顯卡的指令集適配。測試數(shù)據(jù)顯示,Model1的稀疏算子在B200上的算力利用率已達(dá)350 TFlops,顯示出其準(zhǔn)備充分。
代碼中還出現(xiàn)了FP8格式的KV Cache支持,并引入了test_flash_mla_sparse_decoding測試腳本。這意味著DeepSeek正在將MLA機制從“全量計算”進(jìn)化為“Token級稀疏計算”,允許模型在處理超長上下文時動態(tài)忽略不重要的Token,從而在顯存占用和推理速度上實現(xiàn)數(shù)量級的優(yōu)化。
DeepSeek曾在2025年1月20日發(fā)布R1模型,開啟了新的開源LLM時代。今天是R1發(fā)布一周年,Model1有望給AI領(lǐng)域帶來新的變化。
10月20日,人工智能團(tuán)隊DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek開源新模型DeepSeek-OCR11月27日晚,DeepSeek在Hugging Face上開源了一個新模型:DeepSeek-Math-V2。這是一個數(shù)學(xué)模型,也是目前首個達(dá)到IMO金牌水平且開源的模型
2025-11-28 10:26:50DeepSeek推出新模型DeepSeek于12日晚發(fā)布了一篇新論文《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度》。該論文由北京大學(xué)與DeepSeek共同完成,合著作者中包括梁文鋒
2026-01-14 00:09:42DeepSeek發(fā)布新論文