电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

新聞

前DeepMind大佬創(chuàng)業(yè),做出喜怒哀樂以假亂真的AI語音大模型

關(guān)鍵詞:
2025-02-28 11:49:44  網(wǎng)易

前DeepMind大佬創(chuàng)業(yè),做出喜怒哀樂以假亂真的AI語音大模型!美國情感智能技術(shù)AI創(chuàng)企Hume AI于2月27日發(fā)布了新款文生語音大模型Octave。該模型可以根據(jù)用戶輸入的提示詞或劇本,生成具有人設(shè)特點、語調(diào)起伏和情感色彩的AI語音,并允許用戶通過文本指令進行二次調(diào)整和創(chuàng)作。Hume AI由DeepMind前研究員Alan Cowen于2021年創(chuàng)立,最近一輪融資后估值為2.19億美元。

Alan Cowen在接受VentureBeat視頻電話采訪時介紹,Octave能夠理解上下文中的詞匯,并預(yù)測適當(dāng)?shù)那榫w、節(jié)奏、韻律和重音,使AI語音聽起來更加人性化。相比過去機械化的AI語音,Octave旨在讓AI語音更有人情味。這些AI語音不僅帶有憤怒、悲傷或快樂等情緒,還能將多種情感交織在一起,例如“夾雜著幽默或惱怒的輕度沮喪”。Cowen認(rèn)為,該模型適合用于有聲讀物、播客、視頻畫外音和視頻游戲角色配音。

Hume AI在社交媒體平臺X上詳細說明了Octave的具體功能和訓(xùn)練過程。據(jù)透露,用于訓(xùn)練Octave的語言數(shù)據(jù)是傳統(tǒng)文生語音大模型的1000倍,這使得Octave能夠像人類演員一樣理解劇本,并使用更逼真的情感、語義、節(jié)奏、詞語和重音。其訓(xùn)練數(shù)據(jù)中包含了數(shù)百萬小時的公開長篇語音數(shù)據(jù)和Hume AI獨家采集的聲音、視頻數(shù)據(jù)。除了文生語音大模型,Hume AI還在利用Octave訓(xùn)練AI系統(tǒng),以更好地預(yù)判用戶的AI語音生成需求。

在一項人類評審盲測的對比實驗中,Octave的輸出在音質(zhì)、自然度以及語音生成與預(yù)期描述匹配度等方面均優(yōu)于ElevenLabs,表明其AI語音生成過程的可控性和質(zhì)量高于行業(yè)水準(zhǔn)。在推出Octave之前,Hume AI已推出了兩代自研的同理心語音界面(EVI),聲稱EVI是第一個具有情商的對話式AI。

當(dāng)前首發(fā)版本的Octave主要支持英語,其次是西班牙語,未來可能還會上線更多語種。該模型在Hume AI開發(fā)者平臺上的使用強度有一定限制,現(xiàn)支持的音頻格式有MP3、WAV和PCM。

Octave不僅支持生成帶有人設(shè)和人類情感色彩的AI語音,還將推出語音克隆功能。該模型不僅能理解單個句子內(nèi)的情感,還能捕捉上下文之間的情感聯(lián)系,從而更具表達力和細節(jié)度。Octave能夠解析劇本或提示詞中的情節(jié)轉(zhuǎn)折、情感暗示和角色特征,并將其轉(zhuǎn)化為自然帶感情的語音,聽起來就像演員在朗讀劇本一樣。

基于提示詞或劇本,Octave能夠生成各種設(shè)定的AI語音。它會自動解析一段文字內(nèi)容的含義和風(fēng)格,包括人稱代詞、簡稱、用詞等,從而生成與角色相符的連貫語音內(nèi)容。用戶還可以通過具體的角色描述來引導(dǎo)Octave,例如特定口音、人設(shè)特征、職業(yè)角色等。此外,用戶可以選擇跳過語音設(shè)計功能,直接在Playground上即時生成語音。

Octave還支持表演指令功能,可以基于現(xiàn)有語音類型,進一步用指定的情感或說話風(fēng)格來朗讀新劇本。Hume AI表示,只需一段5秒的音頻,Octave就能快速克隆出其語音,但出于安全考慮,涉及較為逼真的孩童語音和特定人物的模仿語音將受限。

Octave現(xiàn)已在platform.hume.ai平臺和Hume AI的API上線。在線平臺上,創(chuàng)作者和開發(fā)者可以使用語音設(shè)計、表演指令、超過40種預(yù)設(shè)語音的語音庫以及用于生成有聲書、播客等長篇內(nèi)容的項目界面(預(yù)覽版)。而在開發(fā)者平臺上,Octave可通過Python和TypeScript SDK訪問,這些SDK處理身份驗證并提供類型化接口,確保集成的可靠性。其命令行界面支持快速原型設(shè)計、測試及從終端批量處理。

目前,Hume AI的API允許開發(fā)人員每分鐘對Octave模型發(fā)出最多50次請求,文本長度上限為5000個字符,描述上限為1000個字符。每個請求最多可生成5個輸出,支持的音頻格式包括MP3、WAV和PCM。

Hume AI對Octave進行了內(nèi)部評估,將其與業(yè)內(nèi)領(lǐng)先的AI文生語音大模型ElevenLabs進行對比?;鶞?zhǔn)測試包含120個多樣化語音描述的樣本,結(jié)果顯示,Octave在音質(zhì)、自然度以及提示詞匹配度方面均略勝一籌。

Hume AI目前采用訂閱制收費方式,分為免費、Creator、Creator Pro和Enterprise四大類。免費版每月提供1萬個字符的文本轉(zhuǎn)語音,總時長約10分鐘;入門版每月3美元,提供3萬個字符,總時長約30分鐘;Creator版每月10美元,提供10萬個字符,總時長約100分鐘;專業(yè)版每月50美元,提供50萬個字符,總時長約500分鐘。規(guī)模、商業(yè)和企業(yè)級接入使用收費標(biāo)準(zhǔn)則有所不同。

Hume AI的新文生語音大模型Octave及其情感智能語音技術(shù)有望解決長期以來AI語音應(yīng)答機械、語調(diào)生硬、音色千篇一律的問題,使人機語音交互更接近人與人之間的溝通。同時,Octave也可以為影視、視聽、新媒體、數(shù)字人等多個行業(yè)產(chǎn)出定制化配音,加速AI語音的商業(yè)化落地。

(責(zé)任編輯:盧其龍 CN070)
關(guān)閉

金秀賢金賽綸2015年被拍到過

金秀賢金賽綸2015年被拍到過2025-03-17 10:31:37

副教授權(quán)威期刊論文全文抄襲?西安交通大學(xué):屬實 學(xué)校已解除聘用關(guān)系

副教授權(quán)威期刊論文全文抄襲,西安交通大學(xué),屬實2025-03-17 10:31:09

存款變保險?記者臥底:保險銷售冒充銀行職員,建行外泄儲戶信息 銀行與險企合謀設(shè)局

存款變保險,記者臥底,保險銷售冒充銀行職員,建行外泄儲戶信息2025-03-17 10:30:51

時間定了!油價即將大跌!

時間定了!油價即將大跌!2025-03-17 10:29:05

美國男子被熱飲燙傷控訴星巴克獲賠3.6億 天價賠償引發(fā)爭議

美國男子被熱飲燙傷控訴星巴克獲賠3,6億2025-03-17 10:06:44

女子路邊撿小孩 孩子哭訴爸爸把媽媽接走了把自己給漏了

女子路邊撿小孩 孩子哭訴被爸爸落下2025-03-17 10:20:58

特朗普:解決毒品問題必須恢復(fù)死刑

特朗普:解決毒品問題必須恢復(fù)死刑2025-03-17 10:11:01

鈦心臟男子存活100天 人工心臟創(chuàng)歷史

鈦心臟男子存活100天2025-03-17 10:19:35

海底撈“小便門”后續(xù):客流量受影響 忠實客戶仍在支持

海底撈小便門后續(xù),客流量受影響2025-03-17 10:24:37

金秀賢金賽綸2015年被拍到過

金秀賢金賽綸2015年被拍到過2025-03-17 10:31:37

特朗普突然下令開戰(zhàn) 對胡塞武裝發(fā)動空襲 向伊朗發(fā)出強烈信號

特朗普突然下令開戰(zhàn)對胡塞武裝發(fā)動空襲2025-03-17 10:12:10

專家:美國為何突襲也門胡塞武裝,特朗普在中東再燃戰(zhàn)火?軍事行動升級引發(fā)關(guān)注

專家,美國為何突襲也門胡塞武裝,特朗普在中東再燃戰(zhàn)火2025-03-17 10:31:14

澤連斯基:俄烏沖突領(lǐng)土問題非常復(fù)雜 對美官員與普京會晤具體內(nèi)容一無所知 ?;饤l件成焦點

澤連斯基,俄烏沖突領(lǐng)土問題非常復(fù)雜對美官員與普京會晤具體內(nèi)容一無所知2025-03-17 10:09:10

太原620名新兵將踏上軍旅征程 青春熱血獻國防

太原620名新兵將踏上軍旅征程2025-03-17 10:13:24

存款變保險?記者臥底:保險銷售冒充銀行職員,建行外泄儲戶信息 銀行與險企合謀設(shè)局

存款變保險,記者臥底,保險銷售冒充銀行職員,建行外泄儲戶信息2025-03-17 10:30:51

庫爾斯克戰(zhàn)事持續(xù),澤連斯基:“按需”作戰(zhàn) 烏軍否認(rèn)被圍困

庫爾斯克戰(zhàn)事持續(xù),澤連斯基,按需作戰(zhàn)2025-03-17 10:09:22

官方查封一次性內(nèi)褲涉事企業(yè) 立即行動嚴(yán)肅查處

官方查封一次性內(nèi)褲涉事企業(yè)2025-03-17 10:26:59

臺灣屏東市區(qū)凌晨爆發(fā)槍戰(zhàn) 5人受傷警方追緝中

臺灣屏東市區(qū)凌晨爆發(fā)槍戰(zhàn)2025-03-17 10:25:48

蜜雪冰城門店被立案調(diào)查 違規(guī)操作引關(guān)注

蜜雪冰城門店被立案調(diào)查2025-03-17 10:29:33

老鋪黃金“煉金術(shù)”調(diào)查:排隊黃牛、熟練工匠和被模仿的古法金 高奢平替引關(guān)注

老鋪黃金煉金術(shù)調(diào)查,排隊黃牛,熟練工匠和被模仿的古法金2025-03-17 10:29:22

白宮發(fā)特朗普“觀戰(zhàn)”照片 網(wǎng)民批評 和平承諾遭質(zhì)疑

白宮發(fā)特朗普觀戰(zhàn)照片網(wǎng)民批評2025-03-17 10:15:05

加方被批夢游般地陷入與中國貿(mào)易戰(zhàn) 雙重壓力下的加拿大困境

加方被批夢游般地陷入與中國貿(mào)易戰(zhàn)2025-03-17 10:08:51

學(xué)者:美軍對也門的行動像一場賭博 中東局勢再升級

學(xué)者,美軍對也門的行動像一場賭博2025-03-17 10:00:01

也門戰(zhàn)局將會如何發(fā)展 美軍行動引發(fā)局勢升級

也門戰(zhàn)局將會如何發(fā)展2025-03-17 10:19:59

NASA稱被困太空宇航員最早19日回地球 結(jié)束超9個月滯留

NASA稱被困太空宇航員最早19日回地球2025-03-17 10:31:32

杜特爾特女兒講述:父親要求我立刻回菲律賓 履行國家職責(zé)

杜特爾特女兒講述,父親要求我立刻回菲律賓2025-03-17 10:11:20

俄總統(tǒng)助理:俄方正在為普京與特朗普會晤做準(zhǔn)備 會晤將視需要舉行

俄總統(tǒng)助理,俄方正在為普京與特朗普會晤做準(zhǔn)備2025-03-17 10:15:21

美官員否認(rèn)美航母遭襲 無人機被成功攔截

美官員否認(rèn)美航母遭襲2025-03-17 10:25:16

德雷珀首奪大師賽冠軍 排名升至第七

德雷珀首奪大師賽冠軍2025-03-17 10:17:51

美空襲也門為以打促談向伊朗施壓 警告信號升級

美空襲也門為以打促談向伊朗施壓2025-03-17 10:08:34

副教授權(quán)威期刊論文全文抄襲?西安交通大學(xué):屬實 學(xué)校已解除聘用關(guān)系

副教授權(quán)威期刊論文全文抄襲,西安交通大學(xué),屬實2025-03-17 10:31:09

男子知假買假獲得10倍賠償

男子知假買假獲得10倍賠償2025-03-17 10:27:22

初醫(yī)生緊急下架所有一次性產(chǎn)品 回應(yīng)非滅菌問題

初醫(yī)生緊急下架所有一次性產(chǎn)品2025-03-17 10:28:51

相關(guān)新聞