DeepSeek上線識圖模式視覺理解新突破(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2026-04-29 18:52:50 觀察者網(wǎng)

DeepSeek-V4預覽版于4月24日上線，陳小康那條推文發(fā)布于4月28日，距離V4只隔了四天。多模態(tài)團隊負責人發(fā)出預告，主線產(chǎn)品冒出新tab，對話分享鏈接生效，API字段返回——這些都指向DeepSeek正在為主線產(chǎn)品裝上視覺理解能力。但具體什么時候正式開閘、是否還會在五一假期前后落地，截至發(fā)稿尚無官方時間表。

V4本身沒有原生多模態(tài)。4月24日發(fā)布當天，DeepSeek官方對V4的定義集中在百萬級長上下文、Agent能力和推理性能三件事上。媒體復盤認為V4在長上下文成本、Coding和Agent任務上達到了開源模型的第一梯隊，但缺乏原生多模態(tài)是明顯的短板。

然而，DeepSeek的研究側(cè)并沒有停止多模態(tài)研究。陳小康博士畢業(yè)于北京大學，2024年加入DeepSeek，主導多模態(tài)預訓練和后訓練工作。從他的Google學術頁可以數(shù)出一長串相關成果，包括2024年12月開源的DeepSeek-VL2、2025年發(fā)布的Janus和JanusFlow，以及春節(jié)前后開源的Janus-Pro。其中Janus-Pro在GenEval圖像生成基準上超過了DALLE-3和Stable Diffusion 3，是當時開源多模態(tài)陣營里最受關注的成果之一。

也就是說，DeepSeek多模態(tài)團隊的論文和開源模型一直在出，缺的只是把這些能力接到主線產(chǎn)品上。V4之前，DeepSeek主線產(chǎn)品里與“看圖”有關的功能只有OCR調(diào)用，不是真正意義上的視覺理解。這一次冒出來的“識圖模式”，從沃垠那段對話case看，已經(jīng)超出文字識別的層次，進入到畫面語義、空間結構、氛圍審美和文化語境的判斷這一層。

事實上，鋪墊早在4月初就開始了。4月8日，DeepSeek網(wǎng)頁端在輸入框上方第一次新增了“快速模式”和“專家模式”兩個圖標，這是DeepSeek出圈以來第一次在產(chǎn)品界面里做能力分層。愛范兒當時的實測稿援引技術KOL Teortaxes的判斷：如果Vision模式真的上線，背后支撐它的很可能已經(jīng)是一個完全功能化的VLM，甚至是Janus系列的下一步演化。

首頁上一頁 123 4 全文共 4 頁下一頁

關閉

DeepSeek上線識圖模式 視覺理解新突破(2)

相關新聞

今日熱點

頻道熱點

DeepSeek上線識圖模式視覺理解新突破(2)