OpenAI深夜發(fā)布首個文生視頻模型Sora，現(xiàn)實將被徹底顛覆

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-02-16 10:58:51 界面新聞

2月16日凌晨，OpenAI再次扔出一枚深水炸彈，發(fā)布了首個文生視頻模型Sora。據(jù)介紹，Sora可以直接輸出長達(dá)60秒的視頻，并且包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭，以及富有情感的多個角色。

目前官網(wǎng)上已經(jīng)更新了48個視頻demo，在這些demo中，Sora不僅能準(zhǔn)確呈現(xiàn)細(xì)節(jié)，還能理解物體在物理世界中的存在，并生成具有豐富情感的角色。該模型還可以根據(jù)提示、靜止圖像甚至填補(bǔ)現(xiàn)有視頻中的缺失幀來生成視頻。

例如一個Prompt（大語言模型中的提示詞）的描述是：在東京街頭，一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標(biāo)志的街道上。

在Sora生成的視頻里，女士身著黑色皮衣、紅色裙子在霓虹街頭行走，不僅主體連貫穩(wěn)定，還有多鏡頭，包括從大街景慢慢切入到對女士的臉部表情的特寫，以及潮濕的街道地面反射霓虹燈的光影效果。

另一個Prompt則是，一只貓試圖叫醒熟睡的主人，要求吃早餐，主人試圖忽略這只貓，但貓嘗試了新招，最終主人從枕頭下拿出藏起來的零食，讓貓自己再多待一會兒。在這個AI生成視頻里，貓甚至都學(xué)會了踩奶，對主人鼻頭的觸碰甚至都是輕輕的，接近物理世界里貓的真實反應(yīng)。

OpenAI表示，他們正在教AI理解和模擬運(yùn)動中的物理世界，目標(biāo)是訓(xùn)練模型來幫助人們解決需要現(xiàn)實世界交互的問題。

隨后OpenAI解釋了Sora的工作原理，Sora是一個擴(kuò)散模型，它從類似于靜態(tài)噪聲的視頻開始，通過多個步驟逐漸去除噪聲，視頻也從最初的隨機(jī)像素轉(zhuǎn)化為清晰的圖像場景。Sora使用了Transformer架構(gòu)，有極強(qiáng)的擴(kuò)展性。

視頻和圖像是被稱為“補(bǔ)丁”的較小數(shù)據(jù)單位集合，每個“補(bǔ)丁”都類似于GPT中的一個標(biāo)記（Token），通過統(tǒng)一的數(shù)據(jù)表達(dá)方式，可以在更廣泛的視覺數(shù)據(jù)上訓(xùn)練和擴(kuò)散變化，包括不同的時間、分辨率和縱橫比。

12 全文共 2 頁下一頁

關(guān)閉

OpenAI深夜發(fā)布首個文生視頻模型Sora，現(xiàn)實將被徹底顛覆

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

OpenAI深夜發(fā)布首個文生視頻模型Sora，現(xiàn)實將被徹底顛覆