上個(gè)月底,DeepSeek 開始灰度測(cè)試“識(shí)圖模式”。這種模式不僅限于文字 OCR,還具備了圖片識(shí)別理解能力。最新用戶反饋顯示,DeepSeek 已經(jīng)大范圍開放“識(shí)圖模式”供用戶體驗(yàn),幾乎所有測(cè)試賬號(hào)都能看到該入口。
擁有灰度測(cè)試資格的用戶會(huì)發(fā)現(xiàn),在輸入框上方與“快速模式”和“專家模式”并列,出現(xiàn)了一個(gè)全新的“識(shí)圖模式”按鈕。開啟該模式后,用戶可以直接上傳圖片讓 DeepSeek 進(jìn)行圖像識(shí)別。其能力遠(yuǎn)超簡(jiǎn)單的文字提取,例如在基礎(chǔ)的圖像識(shí)別領(lǐng)域,它能詳細(xì)描述紋理與材質(zhì),甚至準(zhǔn)確推斷出某件玉器屬于 18 世紀(jì)清代乾隆時(shí)期的“痕都斯坦風(fēng)格”。面對(duì)燒腦的邏輯題時(shí),它展現(xiàn)出硬核的推理能力,能夠解決高難度空間推理題。此外,它還能精準(zhǔn)識(shí)別流行的表情包或梗圖,甚至解讀出小貓的情緒,理解網(wǎng)民的轉(zhuǎn)發(fā)笑點(diǎn)。在生產(chǎn)力方面,它還可以充當(dāng)萬能的“截圖轉(zhuǎn)碼器”,直接解析包含代碼、復(fù)雜 UI 界面的技術(shù)報(bào)告或網(wǎng)頁截圖,提取所有文字,甚至生成可交互的 HTML 代碼,復(fù)原原網(wǎng)頁的跳轉(zhuǎn)按鈕。
伴隨著識(shí)圖模式的上線,DeepSeek 上月底還公開了其背后的多模態(tài)模型技術(shù)細(xì)節(jié),公布了一種名為“Thinking with Visual Primitives”的核心框架。傳統(tǒng)多模態(tài)大模型在面對(duì)密集場(chǎng)景時(shí)存在“指代鴻溝”的困境,模型雖然能看到圖片,但在推理過程中用模糊的自然語言構(gòu)建邏輯鏈時(shí)容易導(dǎo)致注意力漂移。DeepSeek 的解法是將點(diǎn)、邊界框等代表空間位置的視覺元素直接融入模型的推理鏈條,使其成為“思維的基本單元”。這種創(chuàng)新框架使得模型在推理時(shí)就像人類用“賽博手指”在腦海中精確指出目標(biāo)物一樣,邊想邊指,從而解決了復(fù)雜空間布局中的邏輯難題。
更令人驚嘆的是,這種高效的框架在實(shí)際運(yùn)算中對(duì)算力資源非常友好。處理一張 800×800 分辨率的圖片時(shí),DeepSeek 僅消耗約 90 個(gè) tokens,而 GPT 和 Claude 等其他主流模型則需要消耗約 870 到 1100 個(gè) tokens。DeepSeek 在多項(xiàng)計(jì)數(shù)與空間推理的基準(zhǔn)測(cè)試上達(dá)到了比肩甚至超越前沿模型的水平。