DeepSeek跨入圖文交互時(shí)代識(shí)圖模式開啟新體驗(yàn)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-05-11 11:13:15 東方財(cái)富網(wǎng)

上個(gè)月底，DeepSeek 開始灰度測(cè)試“識(shí)圖模式”。這種模式不僅限于文字 OCR，還具備了圖片識(shí)別理解能力。最新用戶反饋顯示，DeepSeek 已經(jīng)大范圍開放“識(shí)圖模式”供用戶體驗(yàn)，幾乎所有測(cè)試賬號(hào)都能看到該入口。

擁有灰度測(cè)試資格的用戶會(huì)發(fā)現(xiàn)，在輸入框上方與“快速模式”和“專家模式”并列，出現(xiàn)了一個(gè)全新的“識(shí)圖模式”按鈕。開啟該模式后，用戶可以直接上傳圖片讓 DeepSeek 進(jìn)行圖像識(shí)別。其能力遠(yuǎn)超簡(jiǎn)單的文字提取，例如在基礎(chǔ)的圖像識(shí)別領(lǐng)域，它能詳細(xì)描述紋理與材質(zhì)，甚至準(zhǔn)確推斷出某件玉器屬于 18 世紀(jì)清代乾隆時(shí)期的“痕都斯坦風(fēng)格”。面對(duì)燒腦的邏輯題時(shí)，它展現(xiàn)出硬核的推理能力，能夠解決高難度空間推理題。此外，它還能精準(zhǔn)識(shí)別流行的表情包或梗圖，甚至解讀出小貓的情緒，理解網(wǎng)民的轉(zhuǎn)發(fā)笑點(diǎn)。在生產(chǎn)力方面，它還可以充當(dāng)萬能的“截圖轉(zhuǎn)碼器”，直接解析包含代碼、復(fù)雜 UI 界面的技術(shù)報(bào)告或網(wǎng)頁截圖，提取所有文字，甚至生成可交互的 HTML 代碼，復(fù)原原網(wǎng)頁的跳轉(zhuǎn)按鈕。

伴隨著識(shí)圖模式的上線，DeepSeek 上月底還公開了其背后的多模態(tài)模型技術(shù)細(xì)節(jié)，公布了一種名為“Thinking with Visual Primitives”的核心框架。傳統(tǒng)多模態(tài)大模型在面對(duì)密集場(chǎng)景時(shí)存在“指代鴻溝”的困境，模型雖然能看到圖片，但在推理過程中用模糊的自然語言構(gòu)建邏輯鏈時(shí)容易導(dǎo)致注意力漂移。DeepSeek 的解法是將點(diǎn)、邊界框等代表空間位置的視覺元素直接融入模型的推理鏈條，使其成為“思維的基本單元”。這種創(chuàng)新框架使得模型在推理時(shí)就像人類用“賽博手指”在腦海中精確指出目標(biāo)物一樣，邊想邊指，從而解決了復(fù)雜空間布局中的邏輯難題。

更令人驚嘆的是，這種高效的框架在實(shí)際運(yùn)算中對(duì)算力資源非常友好。處理一張 800×800 分辨率的圖片時(shí)，DeepSeek 僅消耗約 90 個(gè) tokens，而 GPT 和 Claude 等其他主流模型則需要消耗約 870 到 1100 個(gè) tokens。DeepSeek 在多項(xiàng)計(jì)數(shù)與空間推理的基準(zhǔn)測(cè)試上達(dá)到了比肩甚至超越前沿模型的水平。

12 全文共 2 頁下一頁

關(guān)閉

DeepSeek跨入圖文交互時(shí)代 識(shí)圖模式開啟新體驗(yàn)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek跨入圖文交互時(shí)代識(shí)圖模式開啟新體驗(yàn)