阿里mPLUG團隊近期發(fā)布了一項新成果——通用多模態(tài)大模型mPLUG-Owl3,這款模型專為理解復(fù)雜多圖和長視頻內(nèi)容設(shè)計。mPLUG-Owl3在提升推理效率方面實現(xiàn)了顯著突破,它能將First Token Latency降低6倍,并在單張A100顯卡上處理的圖像數(shù)量提升至400張,這意味著一部2小時的電影僅需4秒即可完成分析。重要的是,效率的飛躍并未犧牲模型的準確性,mPLUG-Owl3在多模態(tài)場景的多個基準測試中均達到了最佳水平。
團隊展示了mPLUG-Owl3的多樣應(yīng)用,包括多模態(tài)檢索增強、多圖推理及長視頻理解。在多模態(tài)檢索中,模型不僅能夠準確回應(yīng)查詢,還能明確指出其決策依據(jù);多圖推理功能則使模型能夠理解不同圖像間的關(guān)聯(lián),進行邏輯推理;而對于長視頻,mPLUG-Owl3能夠在短時間內(nèi)解析并回答關(guān)于視頻細節(jié)的問題,解決了傳統(tǒng)模型處理超長視頻的難題。
mPLUG-Owl3之所以能高效融合多模態(tài)信息,得益于其創(chuàng)新的Hyper Attention模塊。這一設(shè)計允許模型在不增加語言模型序列負擔的情況下,直接與視覺特征交互,減少了計算成本和內(nèi)存占用。通過精心設(shè)計的Cross-Attention操作,模型能夠精準提取并利用視覺信息,同時保持了對文本的高效處理能力。此外,團隊還引入了多模態(tài)交錯的旋轉(zhuǎn)位置編碼MI-Rope,幫助模型更好地理解視覺元素在原始文本中的上下文關(guān)系,進一步優(yōu)化了多模態(tài)融合效果。
實驗結(jié)果顯示,mPLUG-Owl3在廣泛的多模態(tài)基準測試中取得了領(lǐng)先成績,無論是在單圖、多圖還是長視頻理解任務(wù)上,都展現(xiàn)出了超越以往模型的能力。特別是在處理長視覺序列時,即使面對大量無關(guān)圖像的干擾,mPLUG-Owl3依然能保持較高準確率,體現(xiàn)了其在復(fù)雜場景下的魯棒性。
對于那些希望深入了解mPLUG-Owl3技術(shù)細節(jié)和實驗結(jié)果的讀者,可以通過論文和開源代碼進行探索,團隊還提供了在線演示和預(yù)訓(xùn)練模型的訪問鏈接,方便研究人員和開發(fā)者實際體驗這一模型的性能。
隨著OpenAI在2024年5月14日的展示,GPT-4o這一多模態(tài)大模型產(chǎn)品進入了公眾視野,標志著信息獲取方式可能迎來變革
2024-05-15 08:45:10GPT-4o為OpenAI開啟超級入口5月14日,OpenAI在春季發(fā)布會上揭曉了其最新的旗艦AI模型——GPT-4o,這一模型以“全知全能”為目標,實現(xiàn)了實時的語音、文本、圖像交互功能
2024-05-15 09:10:07OpenAI發(fā)布全新生成式AI模型GPT-4o