DeepSeek新突破能否打破大模型瓶頸光學(xué)壓縮引領(lǐng)變革(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-10-25 22:32:27 魏家東商業(yè)評論

這種光學(xué)壓縮的優(yōu)勢不僅體現(xiàn)在壓縮比和準確率上，還在于其對計算資源的優(yōu)化。由于視覺token的數(shù)量大幅減少，模型在處理文本時的計算復(fù)雜度顯著降低，從而減少了對算力和內(nèi)存的需求。這使得DeepSeek-OCR在處理長文本時，能夠以更低的成本和更高的效率運行，為大語言模型在實際應(yīng)用中的擴展提供了新的可能。

DeepSeek-OCR的編碼器DeepEncoder是實現(xiàn)光學(xué)壓縮的關(guān)鍵組件，其設(shè)計精妙，融合了多種先進的技術(shù)和理念，旨在實現(xiàn)高分辨率輸入下的高效壓縮。DeepEncoder主要由三部分構(gòu)成：SAM-base、CLIP-large以及一個16×卷積壓縮模塊。SAM-base以其強大的窗口注意力機制著稱，能夠聚焦于圖像的局部細節(jié)，對文本中的細微特征進行精準捕捉。CLIP-large則側(cè)重于全局注意力，能夠從整體上把握圖像的信息，理解文本的上下文關(guān)系。在SAM-base和CLIP-large之間，是一個關(guān)鍵的16×卷積壓縮模塊。當輸入一張高分辨率的圖像時，傳統(tǒng)的視覺模型通常會將其切成大量patch token進行處理，導(dǎo)致大量的計算和內(nèi)存消耗。而DeepEncoder中的卷積壓縮模塊則會對這些token進行大幅度“瘦身”，將其數(shù)量大幅減少至幾百個，有效降低了后續(xù)處理的計算量和內(nèi)存占用。

解碼器DeepSeek3B-MoE在DeepSeek-OCR中承擔著從壓縮后的視覺token中重建文本的重要任務(wù)，其基于混合專家（MoE）架構(gòu)設(shè)計，展現(xiàn)出了獨特的優(yōu)勢和高效的性能。DeepSeek3B-MoE采用了混合專家模型，內(nèi)部包含64個專家模塊。在實際推理過程中，并非所有專家模塊都會被激活，而是根據(jù)輸入的視覺token的特點和需求，動態(tài)地激活其中6個專家模塊，同時還有2個共享專家模塊參與工作。這種“按需激活”的機制，使得模型在保持強大表達能力的同時，能夠顯著減少計算量和資源消耗。據(jù)測算，雖然DeepSeek3B-MoE的總參數(shù)規(guī)?？此浦挥?0億，但實際激活的參數(shù)約為5.7億，這使得它在推理效率上與小型模型相當，同時又具備大型模型的表達能力。

首頁上一頁 123 4 全文共 4 頁下一頁

關(guān)閉

DeepSeek新突破能否打破大模型瓶頸 光學(xué)壓縮引領(lǐng)變革(2)

相關(guān)新聞

今日熱點

頻道熱點

DeepSeek新突破能否打破大模型瓶頸光學(xué)壓縮引領(lǐng)變革(2)