清華團(tuán)隊國產(chǎn)"Sora"火了：16秒高清視頻一鍵生成

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-04-27 22:48:06 量子位

國內(nèi)新發(fā)布的AI視頻生成模型“Vidu”引起了廣泛關(guān)注，這款由生數(shù)科技與清華大學(xué)合作推出的產(chǎn)品，能夠在一鍵操作下生成16秒長、1080p高清的視頻內(nèi)容。Vidu的特別之處在于其生成的視頻不僅時長顯著，而且在畫面連續(xù)性、鏡頭運(yùn)用、時空一致性和物理規(guī)律模擬上接近國際頂尖水平Sora，甚至能創(chuàng)造出現(xiàn)實中不存在的超現(xiàn)實主義場景，這些都是當(dāng)前大多數(shù)視頻生成模型難以企及的。

在短短兩個月內(nèi)，Vidu的開發(fā)團(tuán)隊實現(xiàn)了這些技術(shù)突破。相較于同類技術(shù)，Vidu的視頻不再是簡單的動態(tài)圖片延展，而是具備了豐富的鏡頭語言，如轉(zhuǎn)場、追焦和長鏡頭效果，能夠講述連貫的故事，提升了視頻的敘事性和觀賞性。它在保持時間與空間一致性上的表現(xiàn)也頗為出色，使得視頻中的動作和場景變換流暢自然，減少了以往AI生成視頻中常見的敘事斷裂和邏輯錯誤。

Vidu對真實物理世界的模擬也是其亮點之一，能夠準(zhǔn)確展現(xiàn)物體運(yùn)動及其相互作用，如塵土飛揚(yáng)、光影變化等，這些細(xì)節(jié)極大地增強(qiáng)了視頻的真實感。更令人興奮的是，Vidu能夠想象并生成現(xiàn)實中不存在的場景，如畫室中的帆船與海浪，以及“魚缸女孩”這類超現(xiàn)實主題，為創(chuàng)意內(nèi)容提供了無限可能，拓寬了藝術(shù)表達(dá)的界限。

此外，Vidu還展現(xiàn)了對中國元素的理解與應(yīng)用，成功生成包含熊貓、龍、宮殿等特色場景的視頻，展示了其文化適應(yīng)性和多樣性。

Vidu快速發(fā)展的“秘籍”在于選擇了正確的技術(shù)路線和堅實的工程化基礎(chǔ)。它基于自研的U-ViT架構(gòu)，該架構(gòu)融合了Transformer與Diffusion模型的優(yōu)勢，能夠直接連續(xù)地從文本生成視頻，避免了插幀和拼接帶來的畫面僵硬問題。同時，團(tuán)隊在圖文任務(wù)中積累的經(jīng)驗和技術(shù)成果，如大規(guī)模訓(xùn)練的可擴(kuò)展性和并行化訓(xùn)練策略，也加速了Vidu在視頻生成領(lǐng)域的進(jìn)步。

生數(shù)科技，這支擁有清華背景的團(tuán)隊，以其在多模態(tài)大模型領(lǐng)域的深厚研究基礎(chǔ)和一系列學(xué)術(shù)成就，支撐起了Vidu的技術(shù)創(chuàng)新。他們不僅在國內(nèi)外頂級會議上多次發(fā)表論文，提出的多項技術(shù)也被國際前沿機(jī)構(gòu)采納，顯示出強(qiáng)勁的研發(fā)實力和行業(yè)影響力。自成立以來，生數(shù)科技憑借其在多模態(tài)大模型賽道的突出表現(xiàn)，獲得了多家知名機(jī)構(gòu)的投資，成為國內(nèi)該領(lǐng)域估值領(lǐng)先的創(chuàng)業(yè)團(tuán)隊。

(責(zé)任編輯：張佳鑫)

關(guān)閉

清華團(tuán)隊國產(chǎn)"Sora"火了：16秒高清視頻一鍵生成

相關(guān)新聞

今日熱點

頻道熱點