這種壓縮方法或許能大幅擴(kuò)展模型的有效上下文長(zhǎng)度,特別是與DeepSeek幾周前發(fā)布的稀疏注意力機(jī)制論文結(jié)合時(shí)。盡管谷歌可能已經(jīng)掌握了類似技術(shù),但DeepSeek選擇完全開(kāi)源,包括模型權(quán)重和方法細(xì)節(jié),使得任何人都可以試驗(yàn)并進(jìn)一步探索這一突破。
Hacker News等平臺(tái)上,DeepSeek-OCR引發(fā)了廣泛討論。Django Web框架的聯(lián)合創(chuàng)建者Simon Willison成功在英偉達(dá)Spark硬件上運(yùn)行了該模型,整個(gè)過(guò)程僅用了40分鐘??萍家曨l播主NiceKate AI也將其部署到了Mac上。
不過(guò),一些研究者指出,DeepSeek的新模型雖然工程上取得了巨大成功,但其核心思路并非首創(chuàng)。早在2022年,哥本哈根大學(xué)等機(jī)構(gòu)的論文《Language Modelling with Pixels》就提出了基于像素的語(yǔ)言編碼器PIXEL,旨在解決語(yǔ)言模型的詞匯瓶頸問(wèn)題。此后,還有多篇研究成果對(duì)這一思路進(jìn)行了發(fā)展和改進(jìn)。
盡管如此,DeepSeek-OCR確實(shí)是一個(gè)非常實(shí)用的模型,已有不少先行者開(kāi)始使用。但也有人批評(píng)其方法缺乏漸進(jìn)性。無(wú)論如何,DeepSeek-OCR的發(fā)布無(wú)疑為大模型領(lǐng)域帶來(lái)了新的思考方向。
10月20日,人工智能團(tuán)隊(duì)DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek開(kāi)源新模型DeepSeek-OCR5月28日,DeepSeek官方宣布,DeepSeek R1模型已完成小版本試升級(jí)。用戶可以前往官方網(wǎng)頁(yè)、APP或小程序測(cè)試新功能,API接口和使用方式保持不變
2025-05-29 08:41:18DeepSeekR1模型已完成小版本試升級(jí)