清華團(tuán)隊(duì)國(guó)產(chǎn)“Sora”火了視頻注入特有中國(guó)元素

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-04-28 08:53:33 環(huán)球網(wǎng)

原標(biāo)題：生數(shù)科技發(fā)布視頻大模型「Vidu」引關(guān)注清華團(tuán)隊(duì)國(guó)產(chǎn)Sora火了

【環(huán)球網(wǎng)科技綜合報(bào)道】近日，生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了視頻大模型「Vidu」，引發(fā)了廣泛關(guān)注。

這一模型支持一鍵生成長(zhǎng)達(dá)16秒、分辨率達(dá)1080p的高清視頻內(nèi)容，畫面效果接近Sora，并且在多方面表現(xiàn)出色，包括鏡頭語(yǔ)言、時(shí)空一致性、物理模擬等方面，讓人驚嘆。

背后的團(tuán)隊(duì)僅用了兩個(gè)月的時(shí)間就取得了這一突破。

與Sora的對(duì)標(biāo)

在視頻生成方面，「Vidu」與Sora進(jìn)行了全面對(duì)標(biāo)。

從視頻長(zhǎng)度、時(shí)空一致性、鏡頭語(yǔ)言、物理模擬等方面看，「Vidu」已經(jīng)逼近了Sora的水平。

生成的視頻長(zhǎng)度達(dá)到了16秒，畫面流暢，細(xì)節(jié)豐富，邏輯連貫，呈現(xiàn)出高度接近真實(shí)世界的效果。

鏡頭語(yǔ)言注入

在視頻制作中，鏡頭語(yǔ)言是非常重要的概念，能夠幫助表達(dá)故事情節(jié)、揭示角色心理、營(yíng)造氛圍等。

現(xiàn)有AI生成的視頻在鏡頭語(yǔ)言方面往往表現(xiàn)單調(diào)，而「Vidu」則通過(guò)生成轉(zhuǎn)場(chǎng)、追焦、長(zhǎng)鏡頭等效果，成功注入了更加豐富的鏡頭語(yǔ)言，提升了視頻的整體敘事感。

時(shí)空一致性保持

視頻畫面的連貫和流暢性取決于人物和場(chǎng)景的時(shí)空一致性。

「Vidu」在一定程度上克服了這一問(wèn)題，保持了視頻的連貫性和流暢性，展現(xiàn)出良好的時(shí)間、空間一致性，讓觀眾體驗(yàn)更加真實(shí)。

模擬真實(shí)物理世界

「Vidu」能夠模擬真實(shí)物理世界的運(yùn)動(dòng)，包括物體的移動(dòng)和相互作用。

與Sora相比，「Vidu」在灰塵、光影等細(xì)節(jié)方面表現(xiàn)出色，接近真實(shí)世界的體驗(yàn)，展現(xiàn)出優(yōu)秀的技術(shù)能力。

豐富的想象力與中國(guó)元素

「Vidu」不僅能生成現(xiàn)實(shí)世界中的畫面，還能虛構(gòu)出真實(shí)世界不存在的超現(xiàn)實(shí)主義畫面。

此外，「Vidu」還能注入特有的中國(guó)元素，如熊貓、龍等，為視頻內(nèi)容增添了新意。

團(tuán)隊(duì)背景與技術(shù)路線

生數(shù)科技的團(tuán)隊(duì)來(lái)自清華大學(xué)人工智能研究院，致力于圖像、3D、視頻等多模態(tài)大模型領(lǐng)域的研究。

他們基于自研的U-ViT架構(gòu)開發(fā)了「Vidu」，該架構(gòu)融合了Transformer和Diffusion模型，展現(xiàn)出卓越的生成能力。

團(tuán)隊(duì)在多模態(tài)領(lǐng)域發(fā)表了多篇頂會(huì)論文，積累了豐富的研究經(jīng)驗(yàn)。

生數(shù)科技通過(guò)「Vidu」展現(xiàn)了其在視頻生成領(lǐng)域的創(chuàng)新能力和技術(shù)實(shí)力，為未來(lái)視頻內(nèi)容創(chuàng)作帶來(lái)了更多可能性。

其快速突破和優(yōu)秀表現(xiàn)也讓人期待其未來(lái)的發(fā)展和應(yīng)用。

(責(zé)任編輯：周晶晶 CN032)

關(guān)閉

清華團(tuán)隊(duì)國(guó)產(chǎn)“Sora”火了 視頻注入特有中國(guó)元素