這種光學(xué)壓縮的優(yōu)勢不僅體現(xiàn)在壓縮比和準確率上,還在于其對計算資源的優(yōu)化。由于視覺token的數(shù)量大幅減少,模型在處理文本時的計算復(fù)雜度顯著降低,從而減少了對算力和內(nèi)存的需求。這使得DeepSeek-OCR在處理長文本時,能夠以更低的成本和更高的效率運行,為大語言模型在實際應(yīng)用中的擴展提供了新的可能。
DeepSeek-OCR的編碼器DeepEncoder是實現(xiàn)光學(xué)壓縮的關(guān)鍵組件,其設(shè)計精妙,融合了多種先進的技術(shù)和理念,旨在實現(xiàn)高分辨率輸入下的高效壓縮。DeepEncoder主要由三部分構(gòu)成:SAM-base、CLIP-large以及一個16×卷積壓縮模塊。SAM-base以其強大的窗口注意力機制著稱,能夠聚焦于圖像的局部細節(jié),對文本中的細微特征進行精準捕捉。CLIP-large則側(cè)重于全局注意力,能夠從整體上把握圖像的信息,理解文本的上下文關(guān)系。在SAM-base和CLIP-large之間,是一個關(guān)鍵的16×卷積壓縮模塊。當輸入一張高分辨率的圖像時,傳統(tǒng)的視覺模型通常會將其切成大量patch token進行處理,導(dǎo)致大量的計算和內(nèi)存消耗。而DeepEncoder中的卷積壓縮模塊則會對這些token進行大幅度“瘦身”,將其數(shù)量大幅減少至幾百個,有效降低了后續(xù)處理的計算量和內(nèi)存占用。
解碼器DeepSeek3B-MoE在DeepSeek-OCR中承擔著從壓縮后的視覺token中重建文本的重要任務(wù),其基于混合專家(MoE)架構(gòu)設(shè)計,展現(xiàn)出了獨特的優(yōu)勢和高效的性能。DeepSeek3B-MoE采用了混合專家模型,內(nèi)部包含64個專家模塊。在實際推理過程中,并非所有專家模塊都會被激活,而是根據(jù)輸入的視覺token的特點和需求,動態(tài)地激活其中6個專家模塊,同時還有2個共享專家模塊參與工作。這種“按需激活”的機制,使得模型在保持強大表達能力的同時,能夠顯著減少計算量和資源消耗。據(jù)測算,雖然DeepSeek3B-MoE的總參數(shù)規(guī)??此浦挥?0億,但實際激活的參數(shù)約為5.7億,這使得它在推理效率上與小型模型相當,同時又具備大型模型的表達能力。