10月20日,人工智能團隊DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR。該模型以“探索視覺 - 文本壓縮邊界”為核心目標,從大語言模型視角重新定義了視覺編碼器的功能定位,為文檔識別、圖像轉(zhuǎn)文本等高頻場景提供了兼顧精度與效率的新解決方案,受到技術(shù)領(lǐng)域和行業(yè)應(yīng)用端的廣泛關(guān)注。
DeepSeek-OCR采用分層設(shè)計的視覺編碼方案,支持Tiny、Small、Base、Large、Gundam五種尺寸配置,可根據(jù)不同硬件條件與場景需求靈活選擇。Gundam版本特別針對大尺寸復(fù)雜文檔進行了優(yōu)化,采用了1024×640混合尺寸配置及專屬裁剪模式,能更精準處理多欄排版、圖文混雜的專業(yè)文檔。
模型創(chuàng)新性地融合了SAM(Segment Anything Model)的圖像分割能力和CLIP的視覺理解能力,并通過MlpProjector模塊實現(xiàn)與語言模型的高效對接。這一設(shè)計不僅使模型能夠精準提取文本內(nèi)容,還能同步捕捉文字、表格、圖像在原圖中的空間布局信息,為后續(xù)結(jié)構(gòu)化輸出提供關(guān)鍵支撐,解決了傳統(tǒng)OCR“只認文字、不識布局”的痛點。
DeepSeek-OCR展現(xiàn)出極強的多場景適應(yīng)性。它既支持單張圖像、PDF文檔的單次處理,也能應(yīng)對批量圖像的高效識別,所有輸出結(jié)果均支持Markdown格式,方便用戶直接編輯或?qū)肫渌k公軟件。模型內(nèi)置邊界框檢測功能,可精準定位文本塊、表格、插圖在原圖中的位置,結(jié)合動態(tài)裁剪策略,根據(jù)圖像尺寸自動調(diào)整處理邏輯,在保證識別精度的同時大幅提升處理速度。
此外,DeepSeek-OCR集成vllm框架實現(xiàn)高效推理,支持多任務(wù)并發(fā)處理,即便面對大規(guī)模文檔處理需求,也能保持穩(wěn)定的響應(yīng)效率,尤其適合學(xué)術(shù)論文、企業(yè)報表、個人簡歷等復(fù)雜文檔的數(shù)字化轉(zhuǎn)化場景。