前DeepMind大佬創(chuàng)業(yè),做出喜怒哀樂以假亂真的AI語音大模型!美國情感智能技術(shù)AI創(chuàng)企Hume AI于2月27日發(fā)布了新款文生語音大模型Octave。該模型可以根據(jù)用戶輸入的提示詞或劇本,生成具有人設(shè)特點、語調(diào)起伏和情感色彩的AI語音,并允許用戶通過文本指令進行二次調(diào)整和創(chuàng)作。Hume AI由DeepMind前研究員Alan Cowen于2021年創(chuàng)立,最近一輪融資后估值為2.19億美元。
Alan Cowen在接受VentureBeat視頻電話采訪時介紹,Octave能夠理解上下文中的詞匯,并預(yù)測適當?shù)那榫w、節(jié)奏、韻律和重音,使AI語音聽起來更加人性化。相比過去機械化的AI語音,Octave旨在讓AI語音更有人情味。這些AI語音不僅帶有憤怒、悲傷或快樂等情緒,還能將多種情感交織在一起,例如“夾雜著幽默或惱怒的輕度沮喪”。Cowen認為,該模型適合用于有聲讀物、播客、視頻畫外音和視頻游戲角色配音。
Hume AI在社交媒體平臺X上詳細說明了Octave的具體功能和訓練過程。據(jù)透露,用于訓練Octave的語言數(shù)據(jù)是傳統(tǒng)文生語音大模型的1000倍,這使得Octave能夠像人類演員一樣理解劇本,并使用更逼真的情感、語義、節(jié)奏、詞語和重音。其訓練數(shù)據(jù)中包含了數(shù)百萬小時的公開長篇語音數(shù)據(jù)和Hume AI獨家采集的聲音、視頻數(shù)據(jù)。除了文生語音大模型,Hume AI還在利用Octave訓練AI系統(tǒng),以更好地預(yù)判用戶的AI語音生成需求。
在一項人類評審盲測的對比實驗中,Octave的輸出在音質(zhì)、自然度以及語音生成與預(yù)期描述匹配度等方面均優(yōu)于ElevenLabs,表明其AI語音生成過程的可控性和質(zhì)量高于行業(yè)水準。在推出Octave之前,Hume AI已推出了兩代自研的同理心語音界面(EVI),聲稱EVI是第一個具有情商的對話式AI。
當?shù)貢r間11月6日凌晨,特朗普在佛羅里達州棕櫚灘會議中心發(fā)表講話。華爾街投資大佬比爾·阿克曼此前在為特朗普拉票時呼吁選民不要只看特朗普這個人,而是要看他背后的整個團隊
2024-11-07 14:05:10特朗普競選團隊都有哪些“大佬”