2B多模態(tài)新SOTA,華科、華南理工發(fā)布Mini-Monkey,專治“切分增大分辨率”后遺癥
近期,多模態(tài)大模型處理高分辨率圖像的性能優(yōu)化成為了研究熱點(diǎn)。以往的多數(shù)方法集中于圖像切分與融合策略,以增強(qiáng)模型對圖像細(xì)節(jié)的理解,但這種做法可能導(dǎo)致目標(biāo)和連續(xù)區(qū)域的割裂,尤其是在文檔理解任務(wù)中,文字?jǐn)嗔训膯栴}尤為突出。
針對這一難題,華中科技大學(xué)與華南理工大學(xué)合作推出了一款名為Mini-Monkey的輕量級(jí)多模態(tài)大模型。該模型創(chuàng)新性地采用了多尺度自適應(yīng)切分策略(MSAC)和尺度壓縮機(jī)制(SCM),有效解決了傳統(tǒng)圖像切分策略的弊端,顯著提升了模型在高分辨率圖像和文檔理解任務(wù)上的性能。Mini-Monkey在多個(gè)基準(zhǔn)測試中均取得了領(lǐng)先地位,充分展示了其在多模態(tài)理解與文檔智能領(lǐng)域的潛力。
MSAC策略讓Mini-Monkey能夠自動(dòng)生成多尺度的圖像表示,確保模型能從不同尺度中識(shí)別完整的對象,避免了因切分造成的識(shí)別障礙。而SCM則是一種無參數(shù)的機(jī)制,用于在保持高效計(jì)算的同時(shí),篩選出關(guān)鍵的視覺特征,進(jìn)一步優(yōu)化了模型的效率和性能。
實(shí)驗(yàn)結(jié)果顯示,Mini-Monkey不僅在文檔智能任務(wù)上取得了優(yōu)異成績,還在廣泛的多模態(tài)理解任務(wù)中實(shí)現(xiàn)了性能提升,與更大參數(shù)量的模型相比,如GLM-4v-9B,Mini-Monkey在OCRBench測試中得分高達(dá)802,展現(xiàn)出其作為2B參數(shù)量模型的頂尖狀態(tài)。
研究還通過與其他切分策略的對比,證明了MSAC策略的有效性和普適性,它能夠顯著減少因圖像切分造成的語義不連貫,如對象識(shí)別錯(cuò)誤和文字分割不當(dāng)?shù)葐栴}。Mini-Monkey在處理包含復(fù)雜、模糊文本的古籍圖像時(shí),相較于MiniCPM-V 2.6、InternVL2-2B和GPT-4o等模型,展現(xiàn)出了更準(zhǔn)確的文本提取能力。
綜上,Mini-Monkey模型及其采用的MSAC與SCM技術(shù),為多模態(tài)大模型在處理高分辨率圖像和提高文檔理解能力方面提供了一個(gè)新的、高效的研究方向,標(biāo)志著在克服傳統(tǒng)切分策略局限性上邁出的重要一步。
2B多模態(tài)新SOTA,華科、華南理工發(fā)布Mini-Monkey,專治“切分增大分辨率”后遺癥。
隨著OpenAI在2024年5月14日的展示,GPT-4o這一多模態(tài)大模型產(chǎn)品進(jìn)入了公眾視野,標(biāo)志著信息獲取方式可能迎來變革
2024-05-15 08:45:10GPT-4o為OpenAI開啟超級(jí)入口