12月25日,阿里云發(fā)布了業(yè)界首個開源多模態(tài)推理模型QVQ-72B-Preview。該模型在視覺理解和推理能力方面表現(xiàn)出色,特別是在解決數(shù)學(xué)、物理、科學(xué)等領(lǐng)域的復(fù)雜問題上尤為突出。多項評測數(shù)據(jù)顯示,QVQ的表現(xiàn)超越了此前的視覺理解模型Qwen2-VL,與OpenAI o1、Claude3.5 Sonnet等推理模型相當(dāng)。目前,開發(fā)者可以在魔搭社區(qū)和HuggingFace平臺上直接體驗這一模型。
人類的推理能力源于語言思維和視覺記憶,因此利用視覺理解增強大模型的推理能力成為AI技術(shù)的重要探索方向。阿里云表示,QVQ是一個基于視覺進行深度思考和推理的大模型。它不僅能更準確地感知視覺內(nèi)容并進行細致分析,還會質(zhì)疑自身假設(shè),仔細審視推理過程中的每一步,最終給出深思熟慮后的結(jié)論。QVQ可以輕松識別“梗圖”內(nèi)涵,通過真實照片合理推斷物體數(shù)量及高度等信息,并在面對數(shù)學(xué)、物理、化學(xué)等科學(xué)難題時,像人甚至科學(xué)家一樣提供思考過程和準確答案。
阿里mPLUG團隊近期發(fā)布了一項新成果——通用多模態(tài)大模型mPLUG-Owl3,這款模型專為理解復(fù)雜多圖和長視頻內(nèi)容設(shè)計
2024-08-19 17:47:52阿里發(fā)通用多模態(tài)大模型mPLUG-Owl3執(zhí)掌阿里云一周年,吳泳銘終于登上了2024年云棲大會的演講臺,他表示,過去22個月,AI發(fā)展的速度超過任何歷史時期。
2024-09-20 14:48:09阿里CEO吳泳銘稱阿里云將繼續(xù)降價當(dāng)?shù)貢r間12月11日,谷歌CEO桑達爾·皮查伊發(fā)布了一份說明,宣布推出Gemini 2.0,這是他們最強大的模型
2024-12-12 07:52:45谷歌AI大模型Gemini2.0發(fā)布