英偉達(dá)新架構(gòu)引爆全模態(tài)大模型革命 OmniVinci強(qiáng)勢開源

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-11-07 23:14:12 搜狐網(wǎng)

英偉達(dá)推出了全模態(tài)大模型OmniVinci，該模型能夠精準(zhǔn)解析視頻和音頻，尤其擅長視覺和聽覺信號的時序?qū)R。它擁有90億參數(shù)規(guī)模，性能超越同級別甚至更高級別模型，訓(xùn)練數(shù)據(jù)效率是對手的6倍，大幅降低成本。在視頻內(nèi)容理解、語音轉(zhuǎn)錄、機(jī)器人導(dǎo)航等場景中，OmniVinci展現(xiàn)出卓越的多模態(tài)應(yīng)用能力。

今年以來，開源大模型戰(zhàn)場競爭激烈。中國大模型在全球范圍內(nèi)表現(xiàn)出色，如DeepSeek在代碼與數(shù)學(xué)推理上的驚人表現(xiàn)，以及Qwen家族在多模態(tài)和通用能力上的全面發(fā)展，它們已成為全球AI從業(yè)者的重要參照物。就在人們以為這場基礎(chǔ)模型開源浪潮將主要由頂尖互聯(lián)網(wǎng)巨頭和明星創(chuàng)業(yè)公司推動時，英偉達(dá)也親自下場加入競爭。

英偉達(dá)發(fā)布了最強(qiáng)9B視頻音頻全模態(tài)大模型OmniVinci，并宣布開源。該模型在多個主流全模態(tài)、音頻理解和視頻理解榜單上展示了碾壓對手的性能。英偉達(dá)將其定義為“全模態(tài)”，即一個能夠同時理解視頻、音頻、圖像和文本的統(tǒng)一模型。盡管參數(shù)規(guī)模僅為90億，但其在多項關(guān)鍵的多模態(tài)基準(zhǔn)測試中展現(xiàn)了極高的性能。

研究表明，聲音為視覺任務(wù)引入了全新的信息維度，使模型在視頻理解方面受益匪淺。從單純依賴視覺到結(jié)合音頻進(jìn)行隱式多模態(tài)學(xué)習(xí)，再到引入全模態(tài)數(shù)據(jù)引擎實現(xiàn)顯式融合，模型的表現(xiàn)呈階梯式躍升。尤其是在采用顯式學(xué)習(xí)策略后，多項指標(biāo)上都出現(xiàn)了突破性進(jìn)步。

視頻與音頻兼具的全模態(tài)模型突破了傳統(tǒng)VLM的模態(tài)限制，能夠更充分地理解視頻內(nèi)容，因此具備更廣闊的應(yīng)用場景。例如，它可以總結(jié)采訪內(nèi)容，轉(zhuǎn)錄成文字，或用于語音指揮機(jī)器人導(dǎo)航。

12 全文共 2 頁下一頁

關(guān)閉

英偉達(dá)新架構(gòu)引爆全模態(tài)大模型革命 OmniVinci強(qiáng)勢開源

相關(guān)新聞

今日熱點

頻道熱點