國內(nèi)新發(fā)布的AI視頻生成模型“Vidu”引起了廣泛關(guān)注,這款由生數(shù)科技與清華大學(xué)合作推出的產(chǎn)品,能夠在一鍵操作下生成16秒長、1080p高清的視頻內(nèi)容。Vidu的特別之處在于其生成的視頻不僅時長顯著,而且在畫面連續(xù)性、鏡頭運(yùn)用、時空一致性和物理規(guī)律模擬上接近國際頂尖水平Sora,甚至能創(chuàng)造出現(xiàn)實中不存在的超現(xiàn)實主義場景,這些都是當(dāng)前大多數(shù)視頻生成模型難以企及的。
在短短兩個月內(nèi),Vidu的開發(fā)團(tuán)隊實現(xiàn)了這些技術(shù)突破。相較于同類技術(shù),Vidu的視頻不再是簡單的動態(tài)圖片延展,而是具備了豐富的鏡頭語言,如轉(zhuǎn)場、追焦和長鏡頭效果,能夠講述連貫的故事,提升了視頻的敘事性和觀賞性。它在保持時間與空間一致性上的表現(xiàn)也頗為出色,使得視頻中的動作和場景變換流暢自然,減少了以往AI生成視頻中常見的敘事斷裂和邏輯錯誤。
Vidu對真實物理世界的模擬也是其亮點之一,能夠準(zhǔn)確展現(xiàn)物體運(yùn)動及其相互作用,如塵土飛揚(yáng)、光影變化等,這些細(xì)節(jié)極大地增強(qiáng)了視頻的真實感。更令人興奮的是,Vidu能夠想象并生成現(xiàn)實中不存在的場景,如畫室中的帆船與海浪,以及“魚缸女孩”這類超現(xiàn)實主題,為創(chuàng)意內(nèi)容提供了無限可能,拓寬了藝術(shù)表達(dá)的界限。
此外,Vidu還展現(xiàn)了對中國元素的理解與應(yīng)用,成功生成包含熊貓、龍、宮殿等特色場景的視頻,展示了其文化適應(yīng)性和多樣性。
Vidu快速發(fā)展的“秘籍”在于選擇了正確的技術(shù)路線和堅實的工程化基礎(chǔ)。它基于自研的U-ViT架構(gòu),該架構(gòu)融合了Transformer與Diffusion模型的優(yōu)勢,能夠直接連續(xù)地從文本生成視頻,避免了插幀和拼接帶來的畫面僵硬問題。同時,團(tuán)隊在圖文任務(wù)中積累的經(jīng)驗和技術(shù)成果,如大規(guī)模訓(xùn)練的可擴(kuò)展性和并行化訓(xùn)練策略,也加速了Vidu在視頻生成領(lǐng)域的進(jìn)步。
生數(shù)科技,這支擁有清華背景的團(tuán)隊,以其在多模態(tài)大模型領(lǐng)域的深厚研究基礎(chǔ)和一系列學(xué)術(shù)成就,支撐起了Vidu的技術(shù)創(chuàng)新。他們不僅在國內(nèi)外頂級會議上多次發(fā)表論文,提出的多項技術(shù)也被國際前沿機(jī)構(gòu)采納,顯示出強(qiáng)勁的研發(fā)實力和行業(yè)影響力。自成立以來,生數(shù)科技憑借其在多模態(tài)大模型賽道的突出表現(xiàn),獲得了多家知名機(jī)構(gòu)的投資,成為國內(nèi)該領(lǐng)域估值領(lǐng)先的創(chuàng)業(yè)團(tuán)隊。
近期,人工智能領(lǐng)域內(nèi)的一起學(xué)術(shù)誠信事件引起了全球科技行業(yè)的密切關(guān)注。
2024-06-04 15:54:36斯坦福AI團(tuán)隊抄襲國產(chǎn)大模型?連識別“清華簡”都抄了!清華系團(tuán)隊回應(yīng)4月27日,中關(guān)村論壇未來人工智能先鋒論壇舉行期間,生數(shù)科技攜手清華大學(xué)宣布了一個重要成果:中國首個長時長、高一致性、高動態(tài)性視頻大模型Vidu正式面世
2024-04-28 18:58:48新模型Vidu直逼Sora