在今年的I/O開發(fā)者大會上,谷歌發(fā)布了新一代視頻生成模型Veo3,這是其首個可以生成視頻背景音效的模型。該模型不僅能合成畫面,還能為鳥鳴或街頭交通等場景配上相應(yīng)的音效,甚至能夠生成人物對話。據(jù)稱,Veo 3在物理模擬與口型同步方面表現(xiàn)出色。
目前,這一新模型僅面向美國地區(qū)的Gemini Ultra用戶以及Vertex AI的企業(yè)用戶開放,并已被集成到谷歌的AI影視制作工具Flow中。通過Flow,用戶依然可以上傳人物、風(fēng)格、場景或物體的圖像作為參考,并利用鏡頭控制功能進行旋轉(zhuǎn)、縮放,甚至調(diào)整畫面從豎屏到橫屏,或者在視頻中添加、刪除元素。
面對越來越難以辨別的人工智能生成內(nèi)容,谷歌推出了SynthID Detector工具。用戶可以通過上傳媒體文件來檢測其中是否包含由谷歌用于標記AI作品的SynthID水印。不過,值得注意的是,目前并非所有的圖像生成模型都支持這種水印技術(shù)。
AI技術(shù)正在重塑科技巨頭之間的競爭格局。谷歌近期頻繁動作,試圖重新確立其在行業(yè)中的領(lǐng)導(dǎo)地位
2025-05-30 22:24:56谷歌大變天谷歌DeepMind團隊于5月27日宣布推出SignGemma,這是其迄今為止最強大的手語翻譯模型,能夠?qū)⑹终Z轉(zhuǎn)化為口語文本。該開源模型計劃在今年晚些時候加入Gemma模型家族
2025-05-31 23:30:49谷歌DeepMind最強手語翻譯模型登場