從4月8日的分層入口,到4月24日V4純文本發(fā)布,再到4月28日陳小康那條已被刪除的預(yù)告,到4月29日“識圖模式”在網(wǎng)頁端、對話分享和API三個層面同時冒頭——這是一條連續(xù)的產(chǎn)品節(jié)奏,只是DeepSeek自己暫時還沒把它說出來。
DeepSeek多模態(tài)團(tuán)隊近年也并非沒有人員變動。據(jù)公開消息,DeepSeek多模態(tài)核心貢獻(xiàn)者阮翀今年4月加盟自動駕駛公司元戎啟行任首席科學(xué)家,DeepSeek-OCR系列核心作者魏浩然也在春節(jié)前后離職。在這些變動之后,多模態(tài)團(tuán)隊的產(chǎn)品化進(jìn)度依然推進(jìn)到當(dāng)前節(jié)點,本身也是一個值得記錄的信息。
DeepSeek把識圖能力送上主線產(chǎn)品的時間點,落在一個比較特殊的行業(yè)拐點上。國內(nèi)主要模型公司的多模態(tài)布局已經(jīng)基本鋪齊。阿里巴巴的Qwen系列推出了多代Qwen-VL視覺語言模型;智譜的GLM-V貫穿GLM-4和GLM-5兩代;字節(jié)跳動和階躍星辰把“全模態(tài)”作為核心定位,階躍年初的Step 3.5 Flash把全模態(tài)能力首次開源;月之暗面的Kimi同步在視覺理解和Coding兩條線并行;MiniMax在保持語言模型能力的同時把視頻生成模型作為差異化優(yōu)勢。騰訊混元4月23日發(fā)布的Hy3 preview則把對標(biāo)目標(biāo)定為DeepSeek和阿里。換句話說,國內(nèi)頭部模型公司里,主線產(chǎn)品上沒有視覺理解能力的,目前只剩DeepSeek一家。
DeepSeek這次一旦正式開閘,意味著這條尾巴也合上了。中國頭部模型公司全員“睜眼”,這是2026年模型層一個比較結(jié)構(gòu)性的變化。
讓這件事變得更緊迫的是Agent。V4發(fā)布稿里,DeepSeek官方明確提到針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產(chǎn)品做了適配優(yōu)化,Agent能力是V4三個核心賣點之一。但純文本Agent的能力上限有限,當(dāng)Agent需要操作瀏覽器、讀截圖、看儀表盤、識別UI元素、處理圖表和PDF時,沒有視覺理解就無法完成閉環(huán)。這也是過去半年Computer Use、屏幕操作Agent這類產(chǎn)品集中冒出來的原因。
DeepSeek正在進(jìn)行一項名為“識圖模式”的灰度測試。這項新功能與現(xiàn)有的“快速模式”和“專家模式”并列,具備多模態(tài)識別能力,而不僅僅是OCR文字識別
2026-04-30 08:25:15DeepSeek灰測識圖模式技術(shù)人員的新聞圈「極客頭條」來啦,快來看看今天值得關(guān)注的重要新聞。DeepSeek 計劃融資 500 億人民幣,創(chuàng)始人兼 CEO 梁文鋒個人出資 200 億
2026-05-09 13:51:53DeepSeek正式跨入圖文交互時代4月8日,DeepSeek上線了專家模式。在最新版本中,DeepSeek輸入框上方新增了“快速模式”與“專家模式”,這是自DeepSeek走紅以來首次在產(chǎn)品端引入模式分層設(shè)計
2026-04-08 11:45:16DeepSeek上線專家模式