智譜的AutoClaw、阿里云的Coding Plan、Anthropic的Computer Use,在底層邏輯上共享一個(gè)判斷:Agent要真正進(jìn)入生產(chǎn)力場景,視覺能力是基礎(chǔ)設(shè)施而不是錦上添花。從這個(gè)角度看,DeepSeek這次給主線產(chǎn)品裝上識圖能力,更接近補(bǔ)一張入場券,而不是單純補(bǔ)短板。
不過具體效果還得等正式開閘之后看。沃垠流出的那個(gè)case里,DeepSeek識圖模型表現(xiàn)出了畫面拆解、自我復(fù)核和文化語境識別的能力,但單點(diǎn)case不能替代系統(tǒng)性測評。和Qwen-VL、GLM-V、Step的多模態(tài)版本相比能拉開多少差距,能不能接住開源社區(qū)對DeepSeek一貫的“打榜”期待,目前都沒有可對比的數(shù)據(jù)。
另一個(gè)待觀察的懸念是開源策略。DeepSeek過去把所有大版本模型都做了開源——包括VL、VL2、Janus系列。如果這次的識圖能力最終也走開源路線,開源多模態(tài)陣營會再增加一個(gè)旗艦玩家;如果走閉源或半開源路線,則意味著DeepSeek在多模態(tài)商業(yè)化路徑上做了一次和過去不同的選擇??紤]到DeepSeek正在以超過200億美元估值尋求融資,路徑選擇的信號意義不會小。