英偉達(dá)推出了全模態(tài)大模型OmniVinci,該模型能夠精準(zhǔn)解析視頻和音頻,尤其擅長視覺和聽覺信號的時序?qū)R。它擁有90億參數(shù)規(guī)模,性能超越同級別甚至更高級別模型,訓(xùn)練數(shù)據(jù)效率是對手的6倍,大幅降低成本。在視頻內(nèi)容理解、語音轉(zhuǎn)錄、機(jī)器人導(dǎo)航等場景中,OmniVinci展現(xiàn)出卓越的多模態(tài)應(yīng)用能力。
今年以來,開源大模型戰(zhàn)場競爭激烈。中國大模型在全球范圍內(nèi)表現(xiàn)出色,如DeepSeek在代碼與數(shù)學(xué)推理上的驚人表現(xiàn),以及Qwen家族在多模態(tài)和通用能力上的全面發(fā)展,它們已成為全球AI從業(yè)者的重要參照物。就在人們以為這場基礎(chǔ)模型開源浪潮將主要由頂尖互聯(lián)網(wǎng)巨頭和明星創(chuàng)業(yè)公司推動時,英偉達(dá)也親自下場加入競爭。
英偉達(dá)發(fā)布了最強(qiáng)9B視頻音頻全模態(tài)大模型OmniVinci,并宣布開源。該模型在多個主流全模態(tài)、音頻理解和視頻理解榜單上展示了碾壓對手的性能。英偉達(dá)將其定義為“全模態(tài)”,即一個能夠同時理解視頻、音頻、圖像和文本的統(tǒng)一模型。盡管參數(shù)規(guī)模僅為90億,但其在多項關(guān)鍵的多模態(tài)基準(zhǔn)測試中展現(xiàn)了極高的性能。
研究表明,聲音為視覺任務(wù)引入了全新的信息維度,使模型在視頻理解方面受益匪淺。從單純依賴視覺到結(jié)合音頻進(jìn)行隱式多模態(tài)學(xué)習(xí),再到引入全模態(tài)數(shù)據(jù)引擎實現(xiàn)顯式融合,模型的表現(xiàn)呈階梯式躍升。尤其是在采用顯式學(xué)習(xí)策略后,多項指標(biāo)上都出現(xiàn)了突破性進(jìn)步。
視頻與音頻兼具的全模態(tài)模型突破了傳統(tǒng)VLM的模態(tài)限制,能夠更充分地理解視頻內(nèi)容,因此具備更廣闊的應(yīng)用場景。例如,它可以總結(jié)采訪內(nèi)容,轉(zhuǎn)錄成文字,或用于語音指揮機(jī)器人導(dǎo)航。