DeepSeek的新模型很瘋狂：整個AI圈都在研究視覺路線，Karpathy不裝了

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2025-10-21 13:55:19 新浪財經(jīng)

DeepSeek的新模型很瘋狂：整個AI圈都在研究視覺路線，Karpathy不裝了！DeepSeek-OCR 論文的發(fā)布在一夜之間打破了大模型的傳統(tǒng)范式。昨天下午，全新模型 DeepSeek-OCR 開源，該模型能夠將1000個字的文章壓縮成100個視覺token，壓縮比達到十倍且精度可達97%。使用一塊英偉達A100每天可處理20萬頁數(shù)據(jù)。這種處理方式可能解決大模型領域中的長上下文效率問題，并預示著大模型輸入方式的重要轉變。

GitHub上，DeepSeek-OCR項目一夜之間獲得了超過4000個Star。作為開源的小模型，它迅速經(jīng)歷了AI社區(qū)的檢驗，許多專家對此發(fā)表了看法。OpenAI聯(lián)合創(chuàng)始成員之一、前特斯拉自動駕駛總監(jiān)Andrej Karpathy認為這是一個很好的OCR模型。他更感興趣的是，對于大語言模型而言，像素是否比文本更適合做輸入？他提出，所有LLM的輸入都應該是圖像，即使有純文本輸入，也應先渲染再輸入。這將帶來更高的信息壓縮率和更通用的信息流。

Karpathy還強調了刪除分詞器的重要性。他認為分詞器丑陋且獨立存在，不是端到端的，引入了Unicode和字節(jié)編碼的問題，增加了安全風險。此外，OCR只是眾多有用的視覺-文本任務之一，文本-文本任務可以轉換為視覺-文本任務，但反之則不行。

紐約大學助理教授謝賽寧對Karpathy的觀點表示贊同，尤其是關于計算機視覺與自然語言處理結合的部分。謝賽寧曾首次將Transformer架構與擴散模型結合，提出了擴散Transformer（DiT），為文生視頻開辟了新道路。

研究者Emanuel指出，在多模態(tài)大語言模型中，視覺token傳統(tǒng)上是“外掛”功能。然而，DeepSeek-OCR通過高效壓縮視覺token，使其比文本token更高效。一萬英文單詞原本對應15,000個文本token，但轉換成視覺token后可能變成30,000到60,000個。而DeepSeek-OCR的壓縮方法使這一過程變得更加高效。

這種壓縮方法或許能大幅擴展模型的有效上下文長度，特別是與DeepSeek幾周前發(fā)布的稀疏注意力機制論文結合時。盡管谷歌可能已經(jīng)掌握了類似技術，但DeepSeek選擇完全開源，包括模型權重和方法細節(jié)，使得任何人都可以試驗并進一步探索這一突破。

Hacker News等平臺上，DeepSeek-OCR引發(fā)了廣泛討論。Django Web框架的聯(lián)合創(chuàng)建者Simon Willison成功在英偉達Spark硬件上運行了該模型，整個過程僅用了40分鐘?？萍家曨l播主NiceKate AI也將其部署到了Mac上。

不過，一些研究者指出，DeepSeek的新模型雖然工程上取得了巨大成功，但其核心思路并非首創(chuàng)。早在2022年，哥本哈根大學等機構的論文《Language Modelling with Pixels》就提出了基于像素的語言編碼器PIXEL，旨在解決語言模型的詞匯瓶頸問題。此后，還有多篇研究成果對這一思路進行了發(fā)展和改進。

盡管如此，DeepSeek-OCR確實是一個非常實用的模型，已有不少先行者開始使用。但也有人批評其方法缺乏漸進性。無論如何，DeepSeek-OCR的發(fā)布無疑為大模型領域帶來了新的思考方向。

(責任編輯：0882)

關閉

DeepSeek的新模型很瘋狂：整個AI圈都在研究視覺路線，Karpathy不裝了

相關新聞

今日熱點

頻道熱點