OpenAI 正在全面強(qiáng)化自身的音頻人工智能能力,為未來推出一款以語音為核心的個(gè)人AI設(shè)備鋪路。這款設(shè)備將以聽覺交互為主要形式,而非依賴屏幕。
目前,ChatGPT的語音功能與文本回答背后所使用的模型并不相同。OpenAI內(nèi)部研究人員認(rèn)為,現(xiàn)有音頻模型在準(zhǔn)確性和響應(yīng)速度上明顯落后,因此公司在過去兩個(gè)月內(nèi)整合了工程、產(chǎn)品和研究力量,集中攻克音頻模型短板。這一調(diào)整直接指向OpenAI的硬件目標(biāo)——打造一款可通過自然語音指令操作的消費(fèi)級(jí)設(shè)備。首款產(chǎn)品預(yù)計(jì)至少還需要一年時(shí)間才能面世。
隨著新架構(gòu)的引入,音頻模型已能生成更自然、更富情感的語音回應(yīng),并具備與人類同時(shí)發(fā)聲、應(yīng)對(duì)打斷的能力。OpenAI計(jì)劃在2026年第一季度正式發(fā)布該模型。在硬件形態(tài)上,OpenAI與谷歌、亞馬遜、Meta和蘋果的看法相似:現(xiàn)有主流設(shè)備并非為未來的AI交互而生。OpenAI團(tuán)隊(duì)希望用戶通過“說話”而非“看屏幕”與設(shè)備互動(dòng),認(rèn)為語音才是最貼近人類交流本能的方式。
合作推進(jìn)硬件項(xiàng)目的喬尼?艾維也強(qiáng)調(diào),無屏幕設(shè)計(jì)不僅更自然,還有助于避免用戶沉迷。他認(rèn)為,新一代設(shè)備應(yīng)當(dāng)糾正以往消費(fèi)電子產(chǎn)品帶來的負(fù)面影響,并為此承擔(dān)責(zé)任。然而,OpenAI目前仍面臨現(xiàn)實(shí)挑戰(zhàn)。不少ChatGPT用戶并未習(xí)慣使用語音功能,這種情況不僅因?yàn)橐纛l模型效果不彰,也與功能認(rèn)知不足有關(guān)。在推出音頻優(yōu)先的AI設(shè)備之前,OpenAI必須先改變用戶的使用習(xí)慣。
OpenAI已組建專門團(tuán)隊(duì)推進(jìn)音頻AI戰(zhàn)略。來自Character.AI的語音研究員昆丹?庫馬爾負(fù)責(zé)整體方向,本?紐豪斯正在重構(gòu)面向音頻的底層架構(gòu),多模態(tài)ChatGPT的產(chǎn)品經(jīng)理杰基?香農(nóng)也參與其中。OpenAI并不僅打算推出一款設(shè)備,而是規(guī)劃了一條產(chǎn)品線,包括智能眼鏡和無屏幕智能音箱。公司內(nèi)部設(shè)想這類設(shè)備將以“伴隨式助手”的形態(tài)存在,主動(dòng)理解環(huán)境和用戶需求,并在獲得授權(quán)的情況下,通過音頻和視頻持續(xù)提供幫助。
為支撐這一長(zhǎng)期布局,OpenAI已在2025年初斥資近65億美元收購喬尼?艾維聯(lián)合創(chuàng)辦的io,并同步推進(jìn)供應(yīng)鏈、工業(yè)設(shè)計(jì)與模型研發(fā)等多條工作線。
OpenAI發(fā)布了兩款可以免費(fèi)使用的AI模型,GPT-oss-120b和GPT-oss-20b。這是自GPT-2發(fā)布以來,OpenAI首次推出新的開源大語言模型
2025-08-06 09:05:42OpenAI發(fā)布2款開源模型