1月5日,據(jù)外媒The Information報道,OpenAI計(jì)劃于2026年第一季度推出全新的語音AI模型,并預(yù)計(jì)在一年后發(fā)布首款完全通過語音指令操控的個人設(shè)備。這款設(shè)備可能是OpenAI CEO薩姆·阿爾特曼在2025年11月21日訪談中提到的AI硬件產(chǎn)品矩陣的一部分。除了單一產(chǎn)品外,OpenAI還在規(guī)劃一整套設(shè)備矩陣,可能包括智能眼鏡和無屏幕智能音箱等。
多位ChatGPT員工透露,目前OpenAI的語音AI模型在回復(fù)準(zhǔn)確性和響應(yīng)速度上明顯落后于文本模型。為此,OpenAI在過去兩個月內(nèi)整合了多個工程、產(chǎn)品和研究團(tuán)隊(duì),對語音AI進(jìn)行了一次全面重構(gòu)。新模型將在音質(zhì)、延遲和交互方式上進(jìn)一步逼近真實(shí)對話體驗(yàn),甚至能夠在用戶說話的同時進(jìn)行語音播報,呈現(xiàn)更接近“對話伙伴”的狀態(tài)。
回顧OpenAI在語音方向上的技術(shù)演進(jìn),2022年其推出的Whisper是一套以高準(zhǔn)確率著稱的自動語音識別系統(tǒng),主要解決“聽懂人說話”的問題;2025年,OpenAI發(fā)布了GPT-realtime語音轉(zhuǎn)語音模型,開始探索低延遲、連續(xù)對話式的語音交互。這一系列嘗試為全新一代語音AI模型的架構(gòu)重塑奠定了基礎(chǔ)。新一代模型在架構(gòu)層面進(jìn)行了調(diào)整,能夠生成聽感更自然、情緒更豐富的語音回復(fù),同時在回答深度和準(zhǔn)確性上也有明顯提升。與現(xiàn)有模型相比,新的語音AI模型可以實(shí)現(xiàn)與用戶“同步說話”,并在對話中更好地應(yīng)對打斷和插話。這種實(shí)時、連續(xù)的語音交互能力是當(dāng)前語音AI模型尚未具備的。
驅(qū)動語音AI模型的底層大型語言模型與當(dāng)前驅(qū)動ChatGPT文本回復(fù)的模型并不完全相同。語音AI項(xiàng)目的關(guān)鍵負(fù)責(zé)人之一是昆丹·庫馬爾,他是一名語音AI研究員,今年夏天從美國AI聊天機(jī)器人獨(dú)角獸公司Character.AI加入OpenAI,負(fù)責(zé)主導(dǎo)相關(guān)工作。項(xiàng)目核心成員還包括產(chǎn)品研究主管本·紐豪斯和多模態(tài)ChatGPT的產(chǎn)品經(jīng)理杰基·香農(nóng)。
OpenAI的研究人員正在同步推進(jìn)一款語音驅(qū)動的個人設(shè)備,其核心理念是讓用戶通過語音而非屏幕與AI交互。今年夏天,參與該設(shè)備研發(fā)的研究人員曾向內(nèi)部員工展示相關(guān)構(gòu)想:這款A(yù)I語音設(shè)備將更像是一個與用戶并肩工作的伙伴,能夠主動提供建議,幫助用戶完成目標(biāo),而不僅僅是應(yīng)用程序或軟件的語音入口。在獲得用戶授權(quán)的前提下,該設(shè)備可通過語音和視頻感知周圍環(huán)境及用戶自身狀態(tài),從而提供更具情境感知能力的服務(wù)。
目前,已有多名OpenAI員工參與到與該設(shè)備相關(guān)的不同環(huán)節(jié)中,包括供應(yīng)鏈管理、工業(yè)設(shè)計(jì)以及模型研究等。在硬件設(shè)計(jì)層面,OpenAI于2025年5月21日以近65億美元的價格收購了io公司,io團(tuán)隊(duì)的大部分成員(約55人)加入OpenAI。io公司由前蘋果首席設(shè)計(jì)官喬納森·艾維聯(lián)合創(chuàng)立,負(fù)責(zé)為OpenAI設(shè)計(jì)這款全新的AI硬件產(chǎn)品。知情人士還透露,OpenAI并不打算只推出單一設(shè)備,而是計(jì)劃分階段發(fā)布一系列產(chǎn)品,內(nèi)部討論過的形態(tài)包括智能眼鏡以及完全無顯示屏的智能音箱。
The Information的報道中提到,OpenAI的研究人員認(rèn)為語音是人類最自然的交流方式,人機(jī)交互也應(yīng)回歸這一形態(tài)。不過,一位前OpenAI員工提到,目前的現(xiàn)實(shí)挑戰(zhàn)在于大量ChatGPT用戶并不習(xí)慣使用語音功能。這意味著,在推出語音優(yōu)先的硬件產(chǎn)品之前,OpenAI需要先培養(yǎng)用戶的使用習(xí)慣。
在OpenAI的設(shè)備設(shè)想中,“無屏幕”被視為一項(xiàng)重要設(shè)計(jì)方向。部分業(yè)內(nèi)人士認(rèn)為,這種形態(tài)有助于降低用戶對設(shè)備的成癮程度。喬納森·艾維目前正深度參與OpenAI的硬件研發(fā),他認(rèn)為未來的新型設(shè)備或許是修復(fù)過去消費(fèi)電子產(chǎn)品所帶來問題的一種方式。與谷歌、亞馬遜、Meta、蘋果等科技巨頭類似,OpenAI也在積極布局新一代個人AI設(shè)備,包括可穿戴產(chǎn)品。這些公司認(rèn)為,當(dāng)前最主流的設(shè)備形態(tài)并未真正為未來的AI能力而設(shè)計(jì),而這正是下一輪硬件創(chuàng)新的突破口所在。
當(dāng)手機(jī)廠商們還在卷影像、拼性能時,小米17 Pro突然推出了一塊覆蓋整個后攝模組的「妙享背屏」,官方宣稱“多一面更精彩”
2025-09-26 09:39:29小米17Pro系列背屏玩法全解