回顧中國(guó)的AI視頻生成之路 從Sora驚恐到即夢(mèng)反殺。馬年春晚,《賀花神》美輪美奐的畫面刷屏全網(wǎng)。緊隨其后,支撐這場(chǎng)視覺奇觀的Seedance 2.0模型開放API調(diào)用,價(jià)格一秒一塊錢。
時(shí)間倒回兩年前,AI視頻生成被認(rèn)為是中國(guó)完全做不出來(lái)的賽道。2024年初,OpenAI的Sora橫空出世,一支“女生走在東京街頭”的60秒視頻,畫面逼真程度堪比實(shí)拍。而當(dāng)時(shí)的國(guó)產(chǎn)視頻模型大多只能生成5—12秒的畫面,表情僵硬、手指穿模、物理穿幫等問(wèn)題頻現(xiàn),效果一眼假。
Sora的出現(xiàn)如同一記耳光,把中國(guó)AI行業(yè)抽懵了。面對(duì)技術(shù)威懾,中國(guó)AI產(chǎn)業(yè)不能坐以待斃,開始像小說(shuō)《三體》中人類面對(duì)智子的技術(shù)封鎖一樣,進(jìn)入各顯神通的“面壁計(jì)劃”,最終完成了從Sora驚恐到即夢(mèng)反殺的逆襲,把畫面質(zhì)量卷上天際,生成價(jià)格卷到地板。這段歷史值得在當(dāng)下AI視頻生成全面爆發(fā)的時(shí)間節(jié)點(diǎn)回顧一下。
2024年初Sora的出現(xiàn)讓中國(guó)AI行業(yè)陷入了至暗時(shí)刻。那段時(shí)間,朋友圈里滿是對(duì)中國(guó)視頻生成技術(shù)技不如人的吐槽。大家的恨鐵不成鋼既來(lái)自肉眼可見的技術(shù)鴻溝,也有腦補(bǔ)的災(zāi)難想象。視頻生成比文本生成復(fù)雜得多,需要同時(shí)解決空間維度的物體形態(tài)一致性、時(shí)間維度的運(yùn)動(dòng)連貫性、物理規(guī)律的準(zhǔn)確模擬,還有音畫同步等一系列難題。與Sora一對(duì)比,國(guó)產(chǎn)模型輸?shù)煤翢o(wú)還手之力。
比落后更可怕的是這一技術(shù)壁壘看似無(wú)法逾越。彼時(shí)全球主流的視頻生成模型是MidJourney、Runway、DALL·E這些海外產(chǎn)品。國(guó)內(nèi)既沒(méi)有Sora的DiT架構(gòu)那樣的核心技術(shù)壁壘,也沒(méi)有充足的英偉達(dá)頂級(jí)顯卡。行業(yè)悲觀地推演:中國(guó)與海外的技術(shù)代差根本無(wú)法追趕,中國(guó)做不出自己的視頻大模型。
Sora對(duì)中國(guó)AI帶來(lái)的沖擊是多方面的。此前,國(guó)內(nèi)AI產(chǎn)業(yè)的發(fā)展多依托應(yīng)用層創(chuàng)新,而視頻生成屬于硬核技術(shù)賽道,沒(méi)有應(yīng)用層的捷徑可走,一下子讓行業(yè)的短板被無(wú)限放大。算力卡脖子、高質(zhì)量視頻訓(xùn)練數(shù)據(jù)匱乏等先天條件的差距,也讓行業(yè)產(chǎn)生了追趕無(wú)望的情緒。國(guó)內(nèi)從業(yè)者陷入了一場(chǎng)關(guān)于“要不要追趕Sora”的路線之爭(zhēng),多數(shù)企業(yè)不愿意第一個(gè)吃螃蟹,更讓逆襲顯得遙遙無(wú)期。
幸好,人類面對(duì)外部威脅,從來(lái)不會(huì)坐以待斃。中國(guó)AI產(chǎn)學(xué)各界很快行動(dòng)起來(lái),化身破解Sora危機(jī)的面壁者。學(xué)術(shù)界、大廠、垂類企業(yè)走出了三條不同的突圍路徑,逐步縮小與Sora的差距。
清華大學(xué)火速申請(qǐng)了文生視頻相關(guān)專利,率先完成技術(shù)卡位。此后,清華聯(lián)合生數(shù)科技,研發(fā)出原創(chuàng)的Diffusion與Transformer融合架構(gòu),打造出中國(guó)首個(gè)長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性的視頻大模型,成為國(guó)內(nèi)視頻生成技術(shù)的開山之作。學(xué)術(shù)界沒(méi)有企業(yè)的商業(yè)包袱,能夠聚焦底層技術(shù),進(jìn)行原創(chuàng)性的探索。此外,視頻生成模型的研發(fā)是算力吞金獸,單靠企業(yè)的投入難以支撐長(zhǎng)期的試錯(cuò),而學(xué)術(shù)界能依托政策傾斜、政府算力補(bǔ)貼和科研基金,進(jìn)行高風(fēng)險(xiǎn)、高投入的硬核研發(fā)。
緊接著出擊的是大廠中的數(shù)據(jù)派,快手可靈、字節(jié)即夢(mèng)相繼上線。2024年3月,即夢(mèng)AI開啟內(nèi)測(cè)。2024年6月,快手自主研發(fā)的視頻生成大模型可靈上線,支持生成1080p分辨率、最長(zhǎng)2分鐘的視頻。這些模型背靠頭部視頻內(nèi)容平臺(tái),手握數(shù)十億級(jí)涵蓋生活、電商、劇情等各類場(chǎng)景的短視頻語(yǔ)料,為模型研發(fā)提供了高質(zhì)量的數(shù)據(jù)基礎(chǔ)。模型推出后,還能借助視頻內(nèi)容生態(tài)啟動(dòng)數(shù)據(jù)飛輪,快速迭代。
并非所有企業(yè)都選擇全面對(duì)標(biāo)Sora,昆侖萬(wàn)維、阿里等企業(yè)走出了第三條路:聚焦垂類場(chǎng)景,打造差異化優(yōu)勢(shì)。例如,昆侖萬(wàn)維的天工大模型針對(duì)短劇制作場(chǎng)景,攻克了角色表情、道具還原、劇情連貫性等問(wèn)題。阿里則將重心放在生態(tài)構(gòu)建與技術(shù)開源上,打造出通義萬(wàn)相、Qwen-Image-2.0等視頻生成模型,并選擇將核心技術(shù)開源,吸引了海量開發(fā)者參與模型的優(yōu)化。
三支大軍的并行探索,最終徹底扭轉(zhuǎn)了外界對(duì)中國(guó)AI視頻生成的悲觀預(yù)期。然而,比技術(shù)更大的挑戰(zhàn)才剛剛到來(lái)。技術(shù)搞定了,還得算經(jīng)濟(jì)賬。與Sora、runway這類海外視頻模型不同,中國(guó)AI視頻生成的商業(yè)化探索面臨更嚴(yán)峻的挑戰(zhàn)。一方面,類Sora模型沒(méi)有成熟的商業(yè)模式可借鑒;另一方面,國(guó)內(nèi)用戶的付費(fèi)習(xí)慣尚未完全養(yǎng)成,企業(yè)用戶和個(gè)人用戶的付費(fèi)意愿都低于海外。
在這種背景下,中國(guó)企業(yè)不得不探索AI視頻生成技術(shù)的低成本落地辦法。算力是AI視頻生成的核心成本,也是此前中國(guó)企業(yè)的最大痛點(diǎn)。面臨顯卡供應(yīng)限制,國(guó)內(nèi)企業(yè)從模型架構(gòu)和硬件適配兩個(gè)維度進(jìn)行雙重優(yōu)化。例如,生數(shù)科技的Vidu模型打造了原創(chuàng)的U-ViT端到端高效生成架構(gòu),結(jié)合國(guó)產(chǎn)芯片的特性進(jìn)行優(yōu)化,用更少的算卡達(dá)到海外模型的同等效果。商湯的Seko 2.0完成多款國(guó)產(chǎn)芯片適配后,單集短劇的算力成本直接減半。
如果說(shuō)算力優(yōu)化是節(jié)流,商業(yè)模式的創(chuàng)新就是開源。面對(duì)國(guó)內(nèi)用戶“免費(fèi)一停,感情歸零”的現(xiàn)狀,中國(guó)企業(yè)在海外的訂閱費(fèi)、token包等模式之外,還探索出了諸如平臺(tái)與商家按廣告收益分成、與創(chuàng)作者按內(nèi)容播放量分賬、為企業(yè)提供定制化的視頻生成服務(wù)等新的變現(xiàn)模式。例如,創(chuàng)作者用快手可靈生成電商廣告短視頻,掛載平臺(tái)內(nèi)商家的商品鏈接,平臺(tái)會(huì)根據(jù)視頻的播放量、商品點(diǎn)擊轉(zhuǎn)化率,與創(chuàng)作者進(jìn)行廣告收益分成。
2025年,是中國(guó)AI視頻生成的破圈元年,廣泛走進(jìn)了大眾生活。曾經(jīng)需要下載專門APP、訪問(wèn)網(wǎng)頁(yè)、輸入復(fù)雜指令prompt才能使用的AI視頻工具,在抖音、剪映等國(guó)民級(jí)應(yīng)用中實(shí)現(xiàn)了“拍同款”式的傻瓜操作。春節(jié)期間,個(gè)性化的AI拜年視頻成了潮流人士新年祝福的新方式。馬年春晚則是AI視頻破圈的最高潮,字節(jié)跳動(dòng)的Seedance 2.0模型參與《賀花神》等舞臺(tái)視覺,讓億萬(wàn)觀眾直觀感受到了中國(guó)AI視頻生成的效果。
但吸引全民玩起來(lái)的同時(shí),一系列AI視頻生成的暗面也隨之浮現(xiàn)。普通用戶最大的煩惱就是排隊(duì)。春節(jié)高峰期,生成一個(gè)10秒的AI視頻最長(zhǎng)需要等待12小時(shí)。如今恢復(fù)到日常使用,生成一段短視頻的排隊(duì)時(shí)間也需要4小時(shí)以上。這糟糕的使用體驗(yàn)讓很多用戶不得不為愛充值,成為模型的付費(fèi)用戶,但即使花了錢,排隊(duì)問(wèn)題也并沒(méi)有得到徹底解決。
隨著AI視頻生成技術(shù)的破圈,大量新用戶涌入,平臺(tái)的資源消耗也指數(shù)級(jí)增加。而AI視頻生成的算力成本遠(yuǎn)高于普通互聯(lián)網(wǎng)產(chǎn)品,所以無(wú)法像以前支撐免費(fèi)社交、免費(fèi)視頻那樣,長(zhǎng)期承擔(dān)免費(fèi)用戶的算力成本。這些新進(jìn)入的免費(fèi)用戶到底是爽一把就走,還是能轉(zhuǎn)化為長(zhǎng)期付費(fèi)用戶,仍然是未知數(shù)。沒(méi)有確定性的商業(yè)回報(bào),AI視頻平臺(tái)也就沒(méi)有動(dòng)力劃撥更多算力資源,而糟糕的排隊(duì)等待體驗(yàn)又會(huì)進(jìn)一步勸退用戶的付費(fèi)意愿。
春節(jié)過(guò)后,一些回歸橫店的演員們發(fā)現(xiàn),曾經(jīng)忙碌的片場(chǎng)冷冷清清,未來(lái)兩個(gè)月都沒(méi)有新劇開拍。原來(lái),在短劇領(lǐng)域,大制作公司紛紛成立AI組,將核心制作環(huán)節(jié)交給AI,小公司則直接全面轉(zhuǎn)成AI制作,不再招聘真人演員。春晚上的技術(shù)歡呼聲尚未散去,AI對(duì)影視行業(yè)的絞殺已經(jīng)開始。
以前,短劇平臺(tái)會(huì)為中小承制方提供劇本庫(kù)、給予保底激勵(lì),但年后,這些平臺(tái)開始AI化轉(zhuǎn)型,不再提供新的劇本資源,并加大對(duì)AI短劇制作的投入。紅果平臺(tái)還推出了針對(duì)性的補(bǔ)償與激勵(lì)政策,對(duì)選擇使用AI技術(shù)進(jìn)行短劇制作的合作方,按AI劇本等級(jí)給予不同額度的保底補(bǔ)償。
全民當(dāng)導(dǎo)演是技術(shù)破圈的起點(diǎn),但商業(yè)化瓶頸仍然存在,社會(huì)層面的連鎖反應(yīng)才剛剛拉開序幕。這些都是中國(guó)AI視頻生成領(lǐng)域?qū)㈤L(zhǎng)期面臨的課題。回頭看從Sora驚恐到即夢(mèng)反殺的歷程,中國(guó)AI產(chǎn)學(xué)各界的從業(yè)者在技術(shù)封鎖、算力卡脖子、商業(yè)模式空白的多重困境中各顯神通,打破小院高墻。這條路遠(yuǎn)沒(méi)有走到終點(diǎn),排隊(duì)的問(wèn)題需要解決,模型的BUG需要修復(fù),AI與真人演員的共存需要探索,商業(yè)化模式需要完善。科技的發(fā)展本就是在解決問(wèn)題中前進(jìn)的過(guò)程,而中國(guó)科技最擅長(zhǎng)的就是在困境中突圍,在解決問(wèn)題中成長(zhǎng)。有理由相信,那些曾經(jīng)困擾、如今仍在考驗(yàn)中國(guó)AI視頻生成技術(shù)的難題終將被逐一破解。
近期,接網(wǎng)民舉報(bào),各類珠峰安裝電梯等AI生成式的虛假信息在網(wǎng)上頻繁出現(xiàn)。
2025-11-27 10:55:00珠峰裝電梯