电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

DeepSeek上線識圖模式 視覺理解新突破

關(guān)鍵詞:
2026-04-29 18:52:50  觀察者網(wǎng)

4月28日上午,DeepSeek多模態(tài)團(tuán)隊(duì)研究員陳小康在X賬號@PKUCXK上發(fā)布了一條推文:“Soon, we see you. ?”,配圖是兩只藍(lán)色的小鯨魚,左邊那只戴著畫有“XX”的黑色眼罩,右邊那只沒戴眼罩、正常露出眼睛。盡管這條推文很快被刪除,但可能暗示DeepSeek的多模態(tài)功能即將上線。

此外,有用戶截圖顯示,chat.deepseek.com輸入框上方曾出現(xiàn)過三個(gè)并列的標(biāo)簽——除了原有的“快速模式”和“專家模式”,還多出了一個(gè)“識圖模式”,鼠標(biāo)懸停后提示“圖片理解功能內(nèi)測中”。這是DeepSeek出圈以來第一次在主線產(chǎn)品里把視覺理解作為獨(dú)立模式呈現(xiàn)。不過這個(gè)標(biāo)簽并不是所有用戶都能看到,目前也無法確認(rèn)它是常態(tài)化的灰度內(nèi)測還是短暫開放后又被回收,官方至今沒有對外說明。

根據(jù)該用戶的測試信息,在試圖模式里,用戶上傳了一張人物照片并提問“這是什么動(dòng)作姿勢”。DeepSeek思考8秒后,先按位置、手臂、頭部、頭發(fā)、著裝、光影逐項(xiàng)拆解了畫面,再給出最終判斷:這是攝影和社交媒體語境里的“慵懶風(fēng)躺姿”或“清冷氛圍感姿勢”,常出現(xiàn)在小紅書、抖音的“宅家”、“慵懶風(fēng)”、“清冷感”等標(biāo)簽下。值得注意的是,這段思考過程中有一步明確的“自我修正考慮”,模型先列出其他可能的解讀,再判斷“慵懶氛圍感姿勢”是最能涵蓋所有細(xì)節(jié)的描述,最后輸出。這種結(jié)構(gòu)化拆解、自我復(fù)核加文化語境識別的組合,已經(jīng)超出DeepSeek過去主線產(chǎn)品上的“圖片識文字”能力層次。

V2EX網(wǎng)友MichaelBitzo 4月29日下午發(fā)帖稱DeepSeek API已經(jīng)返回“識圖模式”字段,但其他用戶實(shí)測反饋仍不可用。這意味著接口側(cè)的字段已經(jīng)存在,但調(diào)用尚未對外開放。

DeepSeek-V4預(yù)覽版于4月24日上線,陳小康那條推文發(fā)布于4月28日,距離V4只隔了四天。多模態(tài)團(tuán)隊(duì)負(fù)責(zé)人發(fā)出預(yù)告,主線產(chǎn)品冒出新tab,對話分享鏈接生效,API字段返回——這些都指向DeepSeek正在為主線產(chǎn)品裝上視覺理解能力。但具體什么時(shí)候正式開閘、是否還會在五一假期前后落地,截至發(fā)稿尚無官方時(shí)間表。

V4本身沒有原生多模態(tài)。4月24日發(fā)布當(dāng)天,DeepSeek官方對V4的定義集中在百萬級長上下文、Agent能力和推理性能三件事上。媒體復(fù)盤認(rèn)為V4在長上下文成本、Coding和Agent任務(wù)上達(dá)到了開源模型的第一梯隊(duì),但缺乏原生多模態(tài)是明顯的短板。

然而,DeepSeek的研究側(cè)并沒有停止多模態(tài)研究。陳小康博士畢業(yè)于北京大學(xué),2024年加入DeepSeek,主導(dǎo)多模態(tài)預(yù)訓(xùn)練和后訓(xùn)練工作。從他的Google學(xué)術(shù)頁可以數(shù)出一長串相關(guān)成果,包括2024年12月開源的DeepSeek-VL2、2025年發(fā)布的Janus和JanusFlow,以及春節(jié)前后開源的Janus-Pro。其中Janus-Pro在GenEval圖像生成基準(zhǔn)上超過了DALLE-3和Stable Diffusion 3,是當(dāng)時(shí)開源多模態(tài)陣營里最受關(guān)注的成果之一。

也就是說,DeepSeek多模態(tài)團(tuán)隊(duì)的論文和開源模型一直在出,缺的只是把這些能力接到主線產(chǎn)品上。V4之前,DeepSeek主線產(chǎn)品里與“看圖”有關(guān)的功能只有OCR調(diào)用,不是真正意義上的視覺理解。這一次冒出來的“識圖模式”,從沃垠那段對話case看,已經(jīng)超出文字識別的層次,進(jìn)入到畫面語義、空間結(jié)構(gòu)、氛圍審美和文化語境的判斷這一層。

事實(shí)上,鋪墊早在4月初就開始了。4月8日,DeepSeek網(wǎng)頁端在輸入框上方第一次新增了“快速模式”和“專家模式”兩個(gè)圖標(biāo),這是DeepSeek出圈以來第一次在產(chǎn)品界面里做能力分層。愛范兒當(dāng)時(shí)的實(shí)測稿援引技術(shù)KOL Teortaxes的判斷:如果Vision模式真的上線,背后支撐它的很可能已經(jīng)是一個(gè)完全功能化的VLM,甚至是Janus系列的下一步演化。

從4月8日的分層入口,到4月24日V4純文本發(fā)布,再到4月28日陳小康那條已被刪除的預(yù)告,到4月29日“識圖模式”在網(wǎng)頁端、對話分享和API三個(gè)層面同時(shí)冒頭——這是一條連續(xù)的產(chǎn)品節(jié)奏,只是DeepSeek自己暫時(shí)還沒把它說出來。

DeepSeek多模態(tài)團(tuán)隊(duì)近年也并非沒有人員變動(dòng)。據(jù)公開消息,DeepSeek多模態(tài)核心貢獻(xiàn)者阮翀今年4月加盟自動(dòng)駕駛公司元戎啟行任首席科學(xué)家,DeepSeek-OCR系列核心作者魏浩然也在春節(jié)前后離職。在這些變動(dòng)之后,多模態(tài)團(tuán)隊(duì)的產(chǎn)品化進(jìn)度依然推進(jìn)到當(dāng)前節(jié)點(diǎn),本身也是一個(gè)值得記錄的信息。

DeepSeek把識圖能力送上主線產(chǎn)品的時(shí)間點(diǎn),落在一個(gè)比較特殊的行業(yè)拐點(diǎn)上。國內(nèi)主要模型公司的多模態(tài)布局已經(jīng)基本鋪齊。阿里巴巴的Qwen系列推出了多代Qwen-VL視覺語言模型;智譜的GLM-V貫穿GLM-4和GLM-5兩代;字節(jié)跳動(dòng)和階躍星辰把“全模態(tài)”作為核心定位,階躍年初的Step 3.5 Flash把全模態(tài)能力首次開源;月之暗面的Kimi同步在視覺理解和Coding兩條線并行;MiniMax在保持語言模型能力的同時(shí)把視頻生成模型作為差異化優(yōu)勢。騰訊混元4月23日發(fā)布的Hy3 preview則把對標(biāo)目標(biāo)定為DeepSeek和阿里。換句話說,國內(nèi)頭部模型公司里,主線產(chǎn)品上沒有視覺理解能力的,目前只剩DeepSeek一家。

DeepSeek這次一旦正式開閘,意味著這條尾巴也合上了。中國頭部模型公司全員“睜眼”,這是2026年模型層一個(gè)比較結(jié)構(gòu)性的變化。

讓這件事變得更緊迫的是Agent。V4發(fā)布稿里,DeepSeek官方明確提到針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產(chǎn)品做了適配優(yōu)化,Agent能力是V4三個(gè)核心賣點(diǎn)之一。但純文本Agent的能力上限有限,當(dāng)Agent需要操作瀏覽器、讀截圖、看儀表盤、識別UI元素、處理圖表和PDF時(shí),沒有視覺理解就無法完成閉環(huán)。這也是過去半年Computer Use、屏幕操作Agent這類產(chǎn)品集中冒出來的原因。

智譜的AutoClaw、阿里云的Coding Plan、Anthropic的Computer Use,在底層邏輯上共享一個(gè)判斷:Agent要真正進(jìn)入生產(chǎn)力場景,視覺能力是基礎(chǔ)設(shè)施而不是錦上添花。從這個(gè)角度看,DeepSeek這次給主線產(chǎn)品裝上識圖能力,更接近補(bǔ)一張入場券,而不是單純補(bǔ)短板。

不過具體效果還得等正式開閘之后看。沃垠流出的那個(gè)case里,DeepSeek識圖模型表現(xiàn)出了畫面拆解、自我復(fù)核和文化語境識別的能力,但單點(diǎn)case不能替代系統(tǒng)性測評。和Qwen-VL、GLM-V、Step的多模態(tài)版本相比能拉開多少差距,能不能接住開源社區(qū)對DeepSeek一貫的“打榜”期待,目前都沒有可對比的數(shù)據(jù)。

另一個(gè)待觀察的懸念是開源策略。DeepSeek過去把所有大版本模型都做了開源——包括VL、VL2、Janus系列。如果這次的識圖能力最終也走開源路線,開源多模態(tài)陣營會再增加一個(gè)旗艦玩家;如果走閉源或半開源路線,則意味著DeepSeek在多模態(tài)商業(yè)化路徑上做了一次和過去不同的選擇??紤]到DeepSeek正在以超過200億美元估值尋求融資,路徑選擇的信號意義不會小。

(責(zé)任編輯:zhangxiaohua)
關(guān)閉

湖南警方通報(bào)“男子街頭毆打路人” 嫌疑人已被抓獲

湖南警方通報(bào)男子街頭毆打路人2026-06-03 21:08:19

30人拼單29人是托兒 起底賭石騙局 私域直播間里的圈套

30人拼單29人是托兒起底賭石騙局2026-06-03 20:52:57

兩家新銀行獲批準(zhǔn)籌建 貴州農(nóng)商行體系再添新成員

兩家新銀行獲批準(zhǔn)籌建2026-06-03 20:34:58

基輔60秒內(nèi)遭4枚導(dǎo)彈襲擊 烏克蘭經(jīng)歷“最艱難一天”

基輔60秒內(nèi)遭4枚導(dǎo)彈襲擊2026-06-03 16:10:27

湖南警方通報(bào)“男子街頭毆打路人” 嫌疑人已被抓獲

湖南警方通報(bào)男子街頭毆打路人2026-06-03 21:08:19

我國還要自研EUV光刻機(jī)嗎 筑牢產(chǎn)業(yè)根基

我國還要自研EUV光刻機(jī)嗎2026-06-03 20:01:47

兩家新銀行獲批準(zhǔn)籌建 貴州農(nóng)商行體系再添新成員

兩家新銀行獲批準(zhǔn)籌建2026-06-03 20:34:58

寸海不讓!那一聲怒吼背后的力量 守護(hù)藍(lán)色國土

寸海不讓,那一聲怒吼背后的力量2026-06-03 19:56:41

黃仁勛稱員工薪水越高越好 分享盈利增長紅利

黃仁勛稱員工薪水越高越好2026-06-03 09:57:14

曝印尼準(zhǔn)備買24架殲-10CE 精明采購策略揭曉

曝印尼準(zhǔn)備買24架殲-10CE2026-06-03 16:08:26

退休夫妻離婚分割近億財(cái)產(chǎn)被移送公安 巨額資產(chǎn)來源不明引發(fā)調(diào)查

退休夫妻離婚分割近億財(cái)產(chǎn)被移送公安2026-06-03 19:42:19

女子連續(xù)多日為搶收農(nóng)機(jī)手送盒飯 潁上好人溫暖田間

女子連續(xù)多日為搶收農(nóng)機(jī)手送盒飯2026-06-03 19:42:52

這些汛情信息都是假的 假消息勿傳

這些汛情信息都是假的2026-06-03 20:16:21

黃金超越美債成最大儲備資產(chǎn)意味什么 全球儲備結(jié)構(gòu)大變局

黃金超越美債成最大儲備資產(chǎn)意味什么2026-06-03 19:59:22

中國驅(qū)逐艦隊(duì)擴(kuò)張迎里程碑 45艘服役 現(xiàn)代化海軍崛起

中國驅(qū)逐艦隊(duì)擴(kuò)張迎里程碑45艘服役2026-06-03 10:24:22

俄稱烏襲擊頓涅茨克一客運(yùn)汽車致7死 烏方暫無回應(yīng)

俄稱烏襲擊頓涅茨克一客運(yùn)汽車致7死2026-06-03 15:43:22

特朗普簽署人工智能行政令 加強(qiáng)AI技術(shù)監(jiān)督

特朗普簽署人工智能行政令2026-06-03 11:41:25

中國機(jī)器人“出海潮”的喜與憂 從規(guī)模到價(jià)值的跨越

中國機(jī)器人出海潮的喜與憂2026-06-03 09:56:59

推遲三個(gè)月的告別:哈梅內(nèi)伊國葬敲定三城舉行 三城送別最高領(lǐng)袖

推遲三個(gè)月的告別,哈梅內(nèi)伊國葬敲定三城舉行2026-06-03 15:42:52

歐洲民眾對自動(dòng)駕駛汽車接受度較低 信任度待提升

歐洲民眾對自動(dòng)駕駛汽車接受度較低2026-06-03 20:18:32

博主:中國海軍達(dá)到新里程碑 新型驅(qū)逐艦服役

博主,中國海軍達(dá)到新里程碑2026-06-03 20:16:55

上海野生動(dòng)物園回應(yīng)老虎吃草質(zhì)疑 為健康所需

上海野生動(dòng)物園回應(yīng)老虎吃草質(zhì)疑2026-06-03 20:10:21

世界杯前墨西哥城“蠑螈化”惹爭議 城市改造優(yōu)先級引討論

世界杯前墨西哥城蠑螈化惹爭議2026-06-03 20:23:57

老人跳江輕生 健身教練一把拉住 的哥英勇救人

老人跳江輕生健身教練一把拉住2026-06-03 20:26:41

男子嫉妒前女友入職銀行入室殺人 控制欲與嫉妒釀悲劇

男子嫉妒前女友入職銀行入室殺人2026-06-03 19:29:14

哈馬斯重申:愿移交加沙地帶治理權(quán) 否認(rèn)不愿交權(quán)指控

哈馬斯重申,愿移交加沙地帶治理權(quán)2026-06-03 16:06:21

歐洲議會投票通過歐美貿(mào)易協(xié)議 立法文本待最終批準(zhǔn)

歐洲議會投票通過歐美貿(mào)易協(xié)議2026-06-03 09:59:24

30人拼單29人是托兒 起底賭石騙局 私域直播間里的圈套

30人拼單29人是托兒起底賭石騙局2026-06-03 20:52:57

日菲炒作海域“劃界談判”目的何在 針對中方海上布局

日菲炒作海域劃界談判目的何在2026-06-03 10:25:15

超聚變推出企業(yè)級Token生產(chǎn)平臺 解鎖高效本地AI部署

超聚變推出企業(yè)級Token生產(chǎn)平臺2026-06-03 20:21:40

相關(guān)新聞