DeepSeek的新模型很瘋狂:整個AI圈都在研究視覺路線,Karpathy不裝了!DeepSeek-OCR 論文的發(fā)布在一夜之間打破了大模型的傳統(tǒng)范式。昨天下午,全新模型 DeepSeek-OCR 開源,該模型能夠將1000個字的文章壓縮成100個視覺token,壓縮比達到十倍且精度可達97%。使用一塊英偉達A100每天可處理20萬頁數(shù)據(jù)。這種處理方式可能解決大模型領域中的長上下文效率問題,并預示著大模型輸入方式的重要轉變。
GitHub上,DeepSeek-OCR項目一夜之間獲得了超過4000個Star。作為開源的小模型,它迅速經(jīng)歷了AI社區(qū)的檢驗,許多專家對此發(fā)表了看法。OpenAI聯(lián)合創(chuàng)始成員之一、前特斯拉自動駕駛總監(jiān)Andrej Karpathy認為這是一個很好的OCR模型。他更感興趣的是,對于大語言模型而言,像素是否比文本更適合做輸入?他提出,所有LLM的輸入都應該是圖像,即使有純文本輸入,也應先渲染再輸入。這將帶來更高的信息壓縮率和更通用的信息流。
Karpathy還強調了刪除分詞器的重要性。他認為分詞器丑陋且獨立存在,不是端到端的,引入了Unicode和字節(jié)編碼的問題,增加了安全風險。此外,OCR只是眾多有用的視覺-文本任務之一,文本-文本任務可以轉換為視覺-文本任務,但反之則不行。
紐約大學助理教授謝賽寧對Karpathy的觀點表示贊同,尤其是關于計算機視覺與自然語言處理結合的部分。謝賽寧曾首次將Transformer架構與擴散模型結合,提出了擴散Transformer(DiT),為文生視頻開辟了新道路。
研究者Emanuel指出,在多模態(tài)大語言模型中,視覺token傳統(tǒng)上是“外掛”功能。然而,DeepSeek-OCR通過高效壓縮視覺token,使其比文本token更高效。一萬英文單詞原本對應15,000個文本token,但轉換成視覺token后可能變成30,000到60,000個。而DeepSeek-OCR的壓縮方法使這一過程變得更加高效。
這種壓縮方法或許能大幅擴展模型的有效上下文長度,特別是與DeepSeek幾周前發(fā)布的稀疏注意力機制論文結合時。盡管谷歌可能已經(jīng)掌握了類似技術,但DeepSeek選擇完全開源,包括模型權重和方法細節(jié),使得任何人都可以試驗并進一步探索這一突破。
Hacker News等平臺上,DeepSeek-OCR引發(fā)了廣泛討論。Django Web框架的聯(lián)合創(chuàng)建者Simon Willison成功在英偉達Spark硬件上運行了該模型,整個過程僅用了40分鐘??萍家曨l播主NiceKate AI也將其部署到了Mac上。
不過,一些研究者指出,DeepSeek的新模型雖然工程上取得了巨大成功,但其核心思路并非首創(chuàng)。早在2022年,哥本哈根大學等機構的論文《Language Modelling with Pixels》就提出了基于像素的語言編碼器PIXEL,旨在解決語言模型的詞匯瓶頸問題。此后,還有多篇研究成果對這一思路進行了發(fā)展和改進。
盡管如此,DeepSeek-OCR確實是一個非常實用的模型,已有不少先行者開始使用。但也有人批評其方法缺乏漸進性。無論如何,DeepSeek-OCR的發(fā)布無疑為大模型領域帶來了新的思考方向。
10月20日,人工智能團隊DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek開源新模型DeepSeek-OCR證券時報的文章內容僅供參考,不構成實質性投資建議,據(jù)此操作風險自擔。下載“證券時報”官方APP或關注官方微信公眾號,可以隨時了解股市動態(tài),洞察政策信息,把握財富機會
2025-09-20 12:51:47DeepSeek為何發(fā)表研究成果5月28日,DeepSeek官方宣布,DeepSeek R1模型已完成小版本試升級。用戶可以前往官方網(wǎng)頁、APP或小程序測試新功能,API接口和使用方式保持不變
2025-05-29 08:41:18DeepSeekR1模型已完成小版本試升級