DeepSeek-OCR模型的卓越性能離不開其背后海量且多樣化的數(shù)據(jù)支持。DeepSeek團隊從互聯(lián)網(wǎng)精心收集了多達3000萬頁的多語言PDF數(shù)據(jù),涵蓋了約100種語言,其中中英文數(shù)據(jù)占據(jù)了2500萬頁。這些數(shù)據(jù)為模型提供了廣泛的語言學習樣本。對于這些PDF數(shù)據(jù),團隊采用了兩種不同的標注方式。一種是粗標注,直接使用fitz從全量數(shù)據(jù)集中提取,這種方式能夠快速地讓模型對光學文本有初步的認識;另一種是精標注,針對中英文數(shù)據(jù),各選取200萬頁,運用PP-DocLayout等先進的布局模型以及MinerU、GOT-OCR2.0等OCR模型進行標注,構(gòu)建出檢測與識別交錯的數(shù)據(jù),這些精標注數(shù)據(jù)為模型提供了更加準確和細致的學習樣本。除了PDF數(shù)據(jù),團隊還收集了300萬份Word文檔數(shù)據(jù),主要用于提升模型對公式識別和HTML格式表格解析的能力。在自然場景OCR方面,DeepSeek-OCR也做了充分的數(shù)據(jù)準備。其圖像數(shù)據(jù)來源于LAION和悟空數(shù)據(jù)集,使用PaddleOCR進行標注,中英文各有1000萬樣本。通過對這些自然場景圖像數(shù)據(jù)的學習,模型能夠適應(yīng)各種復雜的實際場景,提高在現(xiàn)實生活中的文字識別能力。
DeepSeek-OCR在實際應(yīng)用中的性能表現(xiàn)令人矚目。通過一系列嚴格的基準測試,與其他先進的OCR模型進行對比,其優(yōu)勢得以充分彰顯。在OmniDocBench基準測試這一權(quán)威的文檔解析評測體系中,DeepSeek-OCR展現(xiàn)了強大的競爭力。在處理文檔時,僅需100個視覺token,它就能超越GOT-OCR2.0每頁使用256個token所達到的性能。當面對更復雜的文檔處理任務(wù)時,DeepSeek-OCR同樣表現(xiàn)出色。在處理包含大量文本、圖表和復雜格式的文檔時,使用不到800個視覺token,它的性能就優(yōu)于平均每頁需要6000多個token的MinerU2.0。此外,DeepSeek-OCR的推理速度也十分突出,能夠在短時間內(nèi)完成大量的文本識別任務(wù),滿足實際應(yīng)用中對實時性和高效性的需求。