DeepSeek-V4預覽版于4月24日上線,陳小康那條推文發(fā)布于4月28日,距離V4只隔了四天。多模態(tài)團隊負責人發(fā)出預告,主線產(chǎn)品冒出新tab,對話分享鏈接生效,API字段返回——這些都指向DeepSeek正在為主線產(chǎn)品裝上視覺理解能力。但具體什么時候正式開閘、是否還會在五一假期前后落地,截至發(fā)稿尚無官方時間表。
V4本身沒有原生多模態(tài)。4月24日發(fā)布當天,DeepSeek官方對V4的定義集中在百萬級長上下文、Agent能力和推理性能三件事上。媒體復盤認為V4在長上下文成本、Coding和Agent任務上達到了開源模型的第一梯隊,但缺乏原生多模態(tài)是明顯的短板。
然而,DeepSeek的研究側(cè)并沒有停止多模態(tài)研究。陳小康博士畢業(yè)于北京大學,2024年加入DeepSeek,主導多模態(tài)預訓練和后訓練工作。從他的Google學術頁可以數(shù)出一長串相關成果,包括2024年12月開源的DeepSeek-VL2、2025年發(fā)布的Janus和JanusFlow,以及春節(jié)前后開源的Janus-Pro。其中Janus-Pro在GenEval圖像生成基準上超過了DALLE-3和Stable Diffusion 3,是當時開源多模態(tài)陣營里最受關注的成果之一。
也就是說,DeepSeek多模態(tài)團隊的論文和開源模型一直在出,缺的只是把這些能力接到主線產(chǎn)品上。V4之前,DeepSeek主線產(chǎn)品里與“看圖”有關的功能只有OCR調(diào)用,不是真正意義上的視覺理解。這一次冒出來的“識圖模式”,從沃垠那段對話case看,已經(jīng)超出文字識別的層次,進入到畫面語義、空間結構、氛圍審美和文化語境的判斷這一層。
事實上,鋪墊早在4月初就開始了。4月8日,DeepSeek網(wǎng)頁端在輸入框上方第一次新增了“快速模式”和“專家模式”兩個圖標,這是DeepSeek出圈以來第一次在產(chǎn)品界面里做能力分層。愛范兒當時的實測稿援引技術KOL Teortaxes的判斷:如果Vision模式真的上線,背后支撐它的很可能已經(jīng)是一個完全功能化的VLM,甚至是Janus系列的下一步演化。
DeepSeek正在進行一項名為“識圖模式”的灰度測試。這項新功能與現(xiàn)有的“快速模式”和“專家模式”并列,具備多模態(tài)識別能力,而不僅僅是OCR文字識別
2026-04-30 08:25:15DeepSeek灰測識圖模式技術人員的新聞圈「極客頭條」來啦,快來看看今天值得關注的重要新聞。DeepSeek 計劃融資 500 億人民幣,創(chuàng)始人兼 CEO 梁文鋒個人出資 200 億
2026-05-09 13:51:53DeepSeek正式跨入圖文交互時代4月8日,DeepSeek上線了專家模式。在最新版本中,DeepSeek輸入框上方新增了“快速模式”與“專家模式”,這是自DeepSeek走紅以來首次在產(chǎn)品端引入模式分層設計
2026-04-08 11:45:16DeepSeek上線專家模式