DeepSeek新突破能否打破大模型瓶頸光學壓縮引領(lǐng)變革(3)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-10-25 22:32:27 魏家東商業(yè)評論

DeepSeek-OCR模型的卓越性能離不開其背后海量且多樣化的數(shù)據(jù)支持。DeepSeek團隊從互聯(lián)網(wǎng)精心收集了多達3000萬頁的多語言PDF數(shù)據(jù)，涵蓋了約100種語言，其中中英文數(shù)據(jù)占據(jù)了2500萬頁。這些數(shù)據(jù)為模型提供了廣泛的語言學習樣本。對于這些PDF數(shù)據(jù)，團隊采用了兩種不同的標注方式。一種是粗標注，直接使用fitz從全量數(shù)據(jù)集中提取，這種方式能夠快速地讓模型對光學文本有初步的認識；另一種是精標注，針對中英文數(shù)據(jù)，各選取200萬頁，運用PP-DocLayout等先進的布局模型以及MinerU、GOT-OCR2.0等OCR模型進行標注，構(gòu)建出檢測與識別交錯的數(shù)據(jù)，這些精標注數(shù)據(jù)為模型提供了更加準確和細致的學習樣本。除了PDF數(shù)據(jù)，團隊還收集了300萬份Word文檔數(shù)據(jù)，主要用于提升模型對公式識別和HTML格式表格解析的能力。在自然場景OCR方面，DeepSeek-OCR也做了充分的數(shù)據(jù)準備。其圖像數(shù)據(jù)來源于LAION和悟空數(shù)據(jù)集，使用PaddleOCR進行標注，中英文各有1000萬樣本。通過對這些自然場景圖像數(shù)據(jù)的學習，模型能夠適應(yīng)各種復雜的實際場景，提高在現(xiàn)實生活中的文字識別能力。

DeepSeek-OCR在實際應(yīng)用中的性能表現(xiàn)令人矚目。通過一系列嚴格的基準測試，與其他先進的OCR模型進行對比，其優(yōu)勢得以充分彰顯。在OmniDocBench基準測試這一權(quán)威的文檔解析評測體系中，DeepSeek-OCR展現(xiàn)了強大的競爭力。在處理文檔時，僅需100個視覺token，它就能超越GOT-OCR2.0每頁使用256個token所達到的性能。當面對更復雜的文檔處理任務(wù)時，DeepSeek-OCR同樣表現(xiàn)出色。在處理包含大量文本、圖表和復雜格式的文檔時，使用不到800個視覺token，它的性能就優(yōu)于平均每頁需要6000多個token的MinerU2.0。此外，DeepSeek-OCR的推理速度也十分突出，能夠在短時間內(nèi)完成大量的文本識別任務(wù)，滿足實際應(yīng)用中對實時性和高效性的需求。

首頁上一頁 1 234 全文共 4 頁下一頁

關(guān)閉

DeepSeek新突破能否打破大模型瓶頸 光學壓縮引領(lǐng)變革(3)

相關(guān)新聞

今日熱點

頻道熱點

DeepSeek新突破能否打破大模型瓶頸光學壓縮引領(lǐng)變革(3)