DeepSeek的新模型很瘋狂:整個AI圈都在研究視覺路線,Karpathy不裝了!DeepSeek-OCR 論文的發(fā)布在一夜之間打破了大模型的傳統(tǒng)范式。昨天下午,全新模型 DeepSeek-OCR 開源,該模型能夠?qū)?000個字的文章壓縮成100個視覺token,壓縮比達到十倍且精度可達97%。使用一塊英偉達A100每天可處理20萬頁數(shù)據(jù)。這種處理方式可能解決大模型領(lǐng)域中的長上下文效率問題,并預示著大模型輸入方式的重要轉(zhuǎn)變。
GitHub上,DeepSeek-OCR項目一夜之間獲得了超過4000個Star。作為開源的小模型,它迅速經(jīng)歷了AI社區(qū)的檢驗,許多專家對此發(fā)表了看法。OpenAI聯(lián)合創(chuàng)始成員之一、前特斯拉自動駕駛總監(jiān)Andrej Karpathy認為這是一個很好的OCR模型。他更感興趣的是,對于大語言模型而言,像素是否比文本更適合做輸入?他提出,所有LLM的輸入都應(yīng)該是圖像,即使有純文本輸入,也應(yīng)先渲染再輸入。這將帶來更高的信息壓縮率和更通用的信息流。
Karpathy還強調(diào)了刪除分詞器的重要性。他認為分詞器丑陋且獨立存在,不是端到端的,引入了Unicode和字節(jié)編碼的問題,增加了安全風險。此外,OCR只是眾多有用的視覺-文本任務(wù)之一,文本-文本任務(wù)可以轉(zhuǎn)換為視覺-文本任務(wù),但反之則不行。
紐約大學助理教授謝賽寧對Karpathy的觀點表示贊同,尤其是關(guān)于計算機視覺與自然語言處理結(jié)合的部分。謝賽寧曾首次將Transformer架構(gòu)與擴散模型結(jié)合,提出了擴散Transformer(DiT),為文生視頻開辟了新道路。
研究者Emanuel指出,在多模態(tài)大語言模型中,視覺token傳統(tǒng)上是“外掛”功能。然而,DeepSeek-OCR通過高效壓縮視覺token,使其比文本token更高效。一萬英文單詞原本對應(yīng)15,000個文本token,但轉(zhuǎn)換成視覺token后可能變成30,000到60,000個。而DeepSeek-OCR的壓縮方法使這一過程變得更加高效。
10月20日,人工智能團隊DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek開源新模型DeepSeek-OCR5月28日,DeepSeek官方宣布,DeepSeek R1模型已完成小版本試升級。用戶可以前往官方網(wǎng)頁、APP或小程序測試新功能,API接口和使用方式保持不變
2025-05-29 08:41:18DeepSeekR1模型已完成小版本試升級