消息稱OpenAI大力研發(fā)音頻AI模型為語音交互設(shè)備鋪路

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-01-02 09:42:32 新浪財(cái)經(jīng)

OpenAI 正在全面強(qiáng)化自身的音頻人工智能能力，為未來推出一款以語音為核心的個(gè)人AI設(shè)備鋪路。這款設(shè)備將以聽覺交互為主要形式，而非依賴屏幕。

目前，ChatGPT的語音功能與文本回答背后所使用的模型并不相同。OpenAI內(nèi)部研究人員認(rèn)為，現(xiàn)有音頻模型在準(zhǔn)確性和響應(yīng)速度上明顯落后，因此公司在過去兩個(gè)月內(nèi)整合了工程、產(chǎn)品和研究力量，集中攻克音頻模型短板。這一調(diào)整直接指向OpenAI的硬件目標(biāo)——打造一款可通過自然語音指令操作的消費(fèi)級(jí)設(shè)備。首款產(chǎn)品預(yù)計(jì)至少還需要一年時(shí)間才能面世。

隨著新架構(gòu)的引入，音頻模型已能生成更自然、更富情感的語音回應(yīng)，并具備與人類同時(shí)發(fā)聲、應(yīng)對(duì)打斷的能力。OpenAI計(jì)劃在2026年第一季度正式發(fā)布該模型。在硬件形態(tài)上，OpenAI與谷歌、亞馬遜、Meta和蘋果的看法相似：現(xiàn)有主流設(shè)備并非為未來的AI交互而生。OpenAI團(tuán)隊(duì)希望用戶通過“說話”而非“看屏幕”與設(shè)備互動(dòng)，認(rèn)為語音才是最貼近人類交流本能的方式。

合作推進(jìn)硬件項(xiàng)目的喬尼?艾維也強(qiáng)調(diào)，無屏幕設(shè)計(jì)不僅更自然，還有助于避免用戶沉迷。他認(rèn)為，新一代設(shè)備應(yīng)當(dāng)糾正以往消費(fèi)電子產(chǎn)品帶來的負(fù)面影響，并為此承擔(dān)責(zé)任。然而，OpenAI目前仍面臨現(xiàn)實(shí)挑戰(zhàn)。不少ChatGPT用戶并未習(xí)慣使用語音功能，這種情況不僅因?yàn)橐纛l模型效果不彰，也與功能認(rèn)知不足有關(guān)。在推出音頻優(yōu)先的AI設(shè)備之前，OpenAI必須先改變用戶的使用習(xí)慣。

OpenAI已組建專門團(tuán)隊(duì)推進(jìn)音頻AI戰(zhàn)略。來自Character.AI的語音研究員昆丹?庫馬爾負(fù)責(zé)整體方向，本?紐豪斯正在重構(gòu)面向音頻的底層架構(gòu)，多模態(tài)ChatGPT的產(chǎn)品經(jīng)理杰基?香農(nóng)也參與其中。OpenAI并不僅打算推出一款設(shè)備，而是規(guī)劃了一條產(chǎn)品線，包括智能眼鏡和無屏幕智能音箱。公司內(nèi)部設(shè)想這類設(shè)備將以“伴隨式助手”的形態(tài)存在，主動(dòng)理解環(huán)境和用戶需求，并在獲得授權(quán)的情況下，通過音頻和視頻持續(xù)提供幫助。

為支撐這一長(zhǎng)期布局，OpenAI已在2025年初斥資近65億美元收購喬尼?艾維聯(lián)合創(chuàng)辦的io，并同步推進(jìn)供應(yīng)鏈、工業(yè)設(shè)計(jì)與模型研發(fā)等多條工作線。

(責(zé)任編輯：zx0001)

關(guān)閉

消息稱OpenAI大力研發(fā)音頻AI模型 為語音交互設(shè)備鋪路

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

消息稱OpenAI大力研發(fā)音頻AI模型為語音交互設(shè)備鋪路