原標(biāo)題:生數(shù)科技發(fā)布視頻大模型「Vidu」引關(guān)注清華團(tuán)隊(duì)國(guó)產(chǎn)Sora火了
【環(huán)球網(wǎng)科技綜合報(bào)道】近日,生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了視頻大模型「Vidu」,引發(fā)了廣泛關(guān)注。
這一模型支持一鍵生成長(zhǎng)達(dá)16秒、分辨率達(dá)1080p的高清視頻內(nèi)容,畫面效果接近Sora,并且在多方面表現(xiàn)出色,包括鏡頭語(yǔ)言、時(shí)空一致性、物理模擬等方面,讓人驚嘆。
背后的團(tuán)隊(duì)僅用了兩個(gè)月的時(shí)間就取得了這一突破。
與Sora的對(duì)標(biāo)
在視頻生成方面,「Vidu」與Sora進(jìn)行了全面對(duì)標(biāo)。
從視頻長(zhǎng)度、時(shí)空一致性、鏡頭語(yǔ)言、物理模擬等方面看,「Vidu」已經(jīng)逼近了Sora的水平。
生成的視頻長(zhǎng)度達(dá)到了16秒,畫面流暢,細(xì)節(jié)豐富,邏輯連貫,呈現(xiàn)出高度接近真實(shí)世界的效果。
鏡頭語(yǔ)言注入
在視頻制作中,鏡頭語(yǔ)言是非常重要的概念,能夠幫助表達(dá)故事情節(jié)、揭示角色心理、營(yíng)造氛圍等。
現(xiàn)有AI生成的視頻在鏡頭語(yǔ)言方面往往表現(xiàn)單調(diào),而「Vidu」則通過(guò)生成轉(zhuǎn)場(chǎng)、追焦、長(zhǎng)鏡頭等效果,成功注入了更加豐富的鏡頭語(yǔ)言,提升了視頻的整體敘事感。
時(shí)空一致性保持
視頻畫面的連貫和流暢性取決于人物和場(chǎng)景的時(shí)空一致性。
「Vidu」在一定程度上克服了這一問(wèn)題,保持了視頻的連貫性和流暢性,展現(xiàn)出良好的時(shí)間、空間一致性,讓觀眾體驗(yàn)更加真實(shí)。
模擬真實(shí)物理世界
「Vidu」能夠模擬真實(shí)物理世界的運(yùn)動(dòng),包括物體的移動(dòng)和相互作用。
與Sora相比,「Vidu」在灰塵、光影等細(xì)節(jié)方面表現(xiàn)出色,接近真實(shí)世界的體驗(yàn),展現(xiàn)出優(yōu)秀的技術(shù)能力。
豐富的想象力與中國(guó)元素
「Vidu」不僅能生成現(xiàn)實(shí)世界中的畫面,還能虛構(gòu)出真實(shí)世界不存在的超現(xiàn)實(shí)主義畫面。
此外,「Vidu」還能注入特有的中國(guó)元素,如熊貓、龍等,為視頻內(nèi)容增添了新意。
團(tuán)隊(duì)背景與技術(shù)路線
生數(shù)科技的團(tuán)隊(duì)來(lái)自清華大學(xué)人工智能研究院,致力于圖像、3D、視頻等多模態(tài)大模型領(lǐng)域的研究。
他們基于自研的U-ViT架構(gòu)開發(fā)了「Vidu」,該架構(gòu)融合了Transformer和Diffusion模型,展現(xiàn)出卓越的生成能力。
團(tuán)隊(duì)在多模態(tài)領(lǐng)域發(fā)表了多篇頂會(huì)論文,積累了豐富的研究經(jīng)驗(yàn)。
生數(shù)科技通過(guò)「Vidu」展現(xiàn)了其在視頻生成領(lǐng)域的創(chuàng)新能力和技術(shù)實(shí)力,為未來(lái)視頻內(nèi)容創(chuàng)作帶來(lái)了更多可能性。
其快速突破和優(yōu)秀表現(xiàn)也讓人期待其未來(lái)的發(fā)展和應(yīng)用。
近期,人工智能領(lǐng)域內(nèi)的一起學(xué)術(shù)誠(chéng)信事件引起了全球科技行業(yè)的密切關(guān)注。
2024-06-04 15:54:36斯坦福AI團(tuán)隊(duì)抄襲國(guó)產(chǎn)大模型?連識(shí)別“清華簡(jiǎn)”都抄了!清華系團(tuán)隊(duì)回應(yīng)