英偉達新架構(gòu)引爆全模態(tài)大模型革命 OmniVinci強勢開源

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-11-07 23:14:12 搜狐網(wǎng)

英偉達推出了全模態(tài)大模型OmniVinci，該模型能夠精準(zhǔn)解析視頻和音頻，尤其擅長視覺和聽覺信號的時序?qū)R。它擁有90億參數(shù)規(guī)模，性能超越同級別甚至更高級別模型，訓(xùn)練數(shù)據(jù)效率是對手的6倍，大幅降低成本。在視頻內(nèi)容理解、語音轉(zhuǎn)錄、機器人導(dǎo)航等場景中，OmniVinci展現(xiàn)出卓越的多模態(tài)應(yīng)用能力。

今年以來，開源大模型戰(zhàn)場競爭激烈。中國大模型在全球范圍內(nèi)表現(xiàn)出色，如DeepSeek在代碼與數(shù)學(xué)推理上的驚人表現(xiàn)，以及Qwen家族在多模態(tài)和通用能力上的全面發(fā)展，它們已成為全球AI從業(yè)者的重要參照物。就在人們以為這場基礎(chǔ)模型開源浪潮將主要由頂尖互聯(lián)網(wǎng)巨頭和明星創(chuàng)業(yè)公司推動時，英偉達也親自下場加入競爭。

英偉達發(fā)布了最強9B視頻音頻全模態(tài)大模型OmniVinci，并宣布開源。該模型在多個主流全模態(tài)、音頻理解和視頻理解榜單上展示了碾壓對手的性能。英偉達將其定義為“全模態(tài)”，即一個能夠同時理解視頻、音頻、圖像和文本的統(tǒng)一模型。盡管參數(shù)規(guī)模僅為90億，但其在多項關(guān)鍵的多模態(tài)基準(zhǔn)測試中展現(xiàn)了極高的性能。

研究表明，聲音為視覺任務(wù)引入了全新的信息維度，使模型在視頻理解方面受益匪淺。從單純依賴視覺到結(jié)合音頻進行隱式多模態(tài)學(xué)習(xí)，再到引入全模態(tài)數(shù)據(jù)引擎實現(xiàn)顯式融合，模型的表現(xiàn)呈階梯式躍升。尤其是在采用顯式學(xué)習(xí)策略后，多項指標(biāo)上都出現(xiàn)了突破性進步。

視頻與音頻兼具的全模態(tài)模型突破了傳統(tǒng)VLM的模態(tài)限制，能夠更充分地理解視頻內(nèi)容，因此具備更廣闊的應(yīng)用場景。例如，它可以總結(jié)采訪內(nèi)容，轉(zhuǎn)錄成文字，或用于語音指揮機器人導(dǎo)航。

在過去的一年里，DeepSeek憑借其在代碼和數(shù)學(xué)推理上的超強實力，成為“最強理科生”的代名詞。Qwen則構(gòu)建了龐大的模型矩陣，從最小的0.6B到巨無霸1T大模型，是目前生態(tài)最完善、綜合能力最均衡的“全能選手”之一。OmniVinci的開源如同一條“鯰魚”，用極致的效率和強悍的性能樹立了SOTA的研究標(biāo)桿，攪動了開源大模型戰(zhàn)場，督促友軍們拿出更好的模型幫助人類走向AGI。

對于英偉達來說，開源模型越多人使用，意味著更多人購買GPU，這無疑是開源模型的最大收益。因此，英偉達是開源模型團隊的堅定友軍，而不是對手。OmniVinci一經(jīng)發(fā)布，已經(jīng)在huggingface上獲得一萬多的下載量。海外科技博主們也紛紛發(fā)布視頻和文章分享相關(guān)技術(shù)。它既是英偉達“軟硬一體”生態(tài)的自然延伸，也是對整個AI開源生態(tài)的一次強力助推。開源格局因此更加清晰：一方是以DeepSeek、Qwen為代表的中國開源力量，另一方是手握算力霸權(quán)的英偉達，親自下場加速整個進程。對于每一位AI從業(yè)者來說，一個更強、更快、更激烈的AI時代才剛剛開始。

(責(zé)任編輯：0882)

關(guān)閉

英偉達新架構(gòu)引爆全模態(tài)大模型革命 OmniVinci強勢開源

相關(guān)新聞

今日熱點

頻道熱點