DeepSeek上線識圖模式視覺理解新突破(3)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-04-29 18:52:50 觀察者網(wǎng)

從4月8日的分層入口，到4月24日V4純文本發(fā)布，再到4月28日陳小康那條已被刪除的預(yù)告，到4月29日“識圖模式”在網(wǎng)頁端、對話分享和API三個層面同時冒頭——這是一條連續(xù)的產(chǎn)品節(jié)奏，只是DeepSeek自己暫時還沒把它說出來。

DeepSeek多模態(tài)團(tuán)隊近年也并非沒有人員變動。據(jù)公開消息，DeepSeek多模態(tài)核心貢獻(xiàn)者阮翀今年4月加盟自動駕駛公司元戎啟行任首席科學(xué)家，DeepSeek-OCR系列核心作者魏浩然也在春節(jié)前后離職。在這些變動之后，多模態(tài)團(tuán)隊的產(chǎn)品化進(jìn)度依然推進(jìn)到當(dāng)前節(jié)點，本身也是一個值得記錄的信息。

DeepSeek把識圖能力送上主線產(chǎn)品的時間點，落在一個比較特殊的行業(yè)拐點上。國內(nèi)主要模型公司的多模態(tài)布局已經(jīng)基本鋪齊。阿里巴巴的Qwen系列推出了多代Qwen-VL視覺語言模型；智譜的GLM-V貫穿GLM-4和GLM-5兩代；字節(jié)跳動和階躍星辰把“全模態(tài)”作為核心定位，階躍年初的Step 3.5 Flash把全模態(tài)能力首次開源；月之暗面的Kimi同步在視覺理解和Coding兩條線并行；MiniMax在保持語言模型能力的同時把視頻生成模型作為差異化優(yōu)勢。騰訊混元4月23日發(fā)布的Hy3 preview則把對標(biāo)目標(biāo)定為DeepSeek和阿里。換句話說，國內(nèi)頭部模型公司里，主線產(chǎn)品上沒有視覺理解能力的，目前只剩DeepSeek一家。

DeepSeek這次一旦正式開閘，意味著這條尾巴也合上了。中國頭部模型公司全員“睜眼”，這是2026年模型層一個比較結(jié)構(gòu)性的變化。

讓這件事變得更緊迫的是Agent。V4發(fā)布稿里，DeepSeek官方明確提到針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產(chǎn)品做了適配優(yōu)化，Agent能力是V4三個核心賣點之一。但純文本Agent的能力上限有限，當(dāng)Agent需要操作瀏覽器、讀截圖、看儀表盤、識別UI元素、處理圖表和PDF時，沒有視覺理解就無法完成閉環(huán)。這也是過去半年Computer Use、屏幕操作Agent這類產(chǎn)品集中冒出來的原因。

首頁上一頁 1 234 全文共 4 頁下一頁

關(guān)閉

DeepSeek上線識圖模式 視覺理解新突破(3)

相關(guān)新聞

今日熱點

頻道熱點

DeepSeek上線識圖模式視覺理解新突破(3)