英偉達推出了全模態(tài)大模型OmniVinci,該模型能夠精準(zhǔn)解析視頻和音頻,尤其擅長視覺和聽覺信號的時序?qū)R。它擁有90億參數(shù)規(guī)模,性能超越同級別甚至更高級別模型,訓(xùn)練數(shù)據(jù)效率是對手的6倍,大幅降低成本。在視頻內(nèi)容理解、語音轉(zhuǎn)錄、機器人導(dǎo)航等場景中,OmniVinci展現(xiàn)出卓越的多模態(tài)應(yīng)用能力。
今年以來,開源大模型戰(zhàn)場競爭激烈。中國大模型在全球范圍內(nèi)表現(xiàn)出色,如DeepSeek在代碼與數(shù)學(xué)推理上的驚人表現(xiàn),以及Qwen家族在多模態(tài)和通用能力上的全面發(fā)展,它們已成為全球AI從業(yè)者的重要參照物。就在人們以為這場基礎(chǔ)模型開源浪潮將主要由頂尖互聯(lián)網(wǎng)巨頭和明星創(chuàng)業(yè)公司推動時,英偉達也親自下場加入競爭。
英偉達發(fā)布了最強9B視頻音頻全模態(tài)大模型OmniVinci,并宣布開源。該模型在多個主流全模態(tài)、音頻理解和視頻理解榜單上展示了碾壓對手的性能。英偉達將其定義為“全模態(tài)”,即一個能夠同時理解視頻、音頻、圖像和文本的統(tǒng)一模型。盡管參數(shù)規(guī)模僅為90億,但其在多項關(guān)鍵的多模態(tài)基準(zhǔn)測試中展現(xiàn)了極高的性能。
研究表明,聲音為視覺任務(wù)引入了全新的信息維度,使模型在視頻理解方面受益匪淺。從單純依賴視覺到結(jié)合音頻進行隱式多模態(tài)學(xué)習(xí),再到引入全模態(tài)數(shù)據(jù)引擎實現(xiàn)顯式融合,模型的表現(xiàn)呈階梯式躍升。尤其是在采用顯式學(xué)習(xí)策略后,多項指標(biāo)上都出現(xiàn)了突破性進步。
視頻與音頻兼具的全模態(tài)模型突破了傳統(tǒng)VLM的模態(tài)限制,能夠更充分地理解視頻內(nèi)容,因此具備更廣闊的應(yīng)用場景。例如,它可以總結(jié)采訪內(nèi)容,轉(zhuǎn)錄成文字,或用于語音指揮機器人導(dǎo)航。
在過去的一年里,DeepSeek憑借其在代碼和數(shù)學(xué)推理上的超強實力,成為“最強理科生”的代名詞。Qwen則構(gòu)建了龐大的模型矩陣,從最小的0.6B到巨無霸1T大模型,是目前生態(tài)最完善、綜合能力最均衡的“全能選手”之一。OmniVinci的開源如同一條“鯰魚”,用極致的效率和強悍的性能樹立了SOTA的研究標(biāo)桿,攪動了開源大模型戰(zhàn)場,督促友軍們拿出更好的模型幫助人類走向AGI。
對于英偉達來說,開源模型越多人使用,意味著更多人購買GPU,這無疑是開源模型的最大收益。因此,英偉達是開源模型團隊的堅定友軍,而不是對手。OmniVinci一經(jīng)發(fā)布,已經(jīng)在huggingface上獲得一萬多的下載量。海外科技博主們也紛紛發(fā)布視頻和文章分享相關(guān)技術(shù)。它既是英偉達“軟硬一體”生態(tài)的自然延伸,也是對整個AI開源生態(tài)的一次強力助推。開源格局因此更加清晰:一方是以DeepSeek、Qwen為代表的中國開源力量,另一方是手握算力霸權(quán)的英偉達,親自下場加速整個進程。對于每一位AI從業(yè)者來說,一個更強、更快、更激烈的AI時代才剛剛開始。
當(dāng)?shù)貢r間12月2日,英偉達參加了瑞銀全球技術(shù)與AI大會。英偉達CFO科萊特·克雷斯接受了瑞銀分析師提問,并討論了英偉達與OpenAI等大模型公司的合作關(guān)系
2025-12-03 13:20:45英偉達云廠商收入占比一半以上