DeepSeek的新模型很瘋狂：整個AI圈都在研究視覺路線，Karpathy不裝了

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-10-21 13:55:19 新浪財經(jīng)

DeepSeek的新模型很瘋狂：整個AI圈都在研究視覺路線，Karpathy不裝了！DeepSeek-OCR 論文的發(fā)布在一夜之間打破了大模型的傳統(tǒng)范式。昨天下午，全新模型 DeepSeek-OCR 開源，該模型能夠?qū)?000個字的文章壓縮成100個視覺token，壓縮比達到十倍且精度可達97%。使用一塊英偉達A100每天可處理20萬頁數(shù)據(jù)。這種處理方式可能解決大模型領(lǐng)域中的長上下文效率問題，并預示著大模型輸入方式的重要轉(zhuǎn)變。

GitHub上，DeepSeek-OCR項目一夜之間獲得了超過4000個Star。作為開源的小模型，它迅速經(jīng)歷了AI社區(qū)的檢驗，許多專家對此發(fā)表了看法。OpenAI聯(lián)合創(chuàng)始成員之一、前特斯拉自動駕駛總監(jiān)Andrej Karpathy認為這是一個很好的OCR模型。他更感興趣的是，對于大語言模型而言，像素是否比文本更適合做輸入？他提出，所有LLM的輸入都應(yīng)該是圖像，即使有純文本輸入，也應(yīng)先渲染再輸入。這將帶來更高的信息壓縮率和更通用的信息流。

Karpathy還強調(diào)了刪除分詞器的重要性。他認為分詞器丑陋且獨立存在，不是端到端的，引入了Unicode和字節(jié)編碼的問題，增加了安全風險。此外，OCR只是眾多有用的視覺-文本任務(wù)之一，文本-文本任務(wù)可以轉(zhuǎn)換為視覺-文本任務(wù)，但反之則不行。

紐約大學助理教授謝賽寧對Karpathy的觀點表示贊同，尤其是關(guān)于計算機視覺與自然語言處理結(jié)合的部分。謝賽寧曾首次將Transformer架構(gòu)與擴散模型結(jié)合，提出了擴散Transformer（DiT），為文生視頻開辟了新道路。

研究者Emanuel指出，在多模態(tài)大語言模型中，視覺token傳統(tǒng)上是“外掛”功能。然而，DeepSeek-OCR通過高效壓縮視覺token，使其比文本token更高效。一萬英文單詞原本對應(yīng)15,000個文本token，但轉(zhuǎn)換成視覺token后可能變成30,000到60,000個。而DeepSeek-OCR的壓縮方法使這一過程變得更加高效。

12 全文共 2 頁下一頁

關(guān)閉

DeepSeek的新模型很瘋狂：整個AI圈都在研究視覺路線，Karpathy不裝了

相關(guān)新聞

今日熱點

頻道熱點

DeepSeek的新模型很瘋狂：整個AI圈都在研究視覺路線，Karpathy不裝了