OpenAI發(fā)布三款實(shí)時(shí)語音模型 提升交互自然度與執(zhí)行能力。5月8日,OpenAI面向開發(fā)者發(fā)布了三款全新音頻大模型,旨在大幅提升語音智能體的交互自然度,并賦予其在實(shí)時(shí)對話中直接執(zhí)行任務(wù)的能力。隨著新版API的開放,OpenAI正在跨越傳統(tǒng)的“語音轉(zhuǎn)錄”與“文本聊天”階段,向構(gòu)建具備實(shí)時(shí)監(jiān)聽、翻譯及執(zhí)行能力的智能體延伸。
本次發(fā)布的三款核心模型分別為GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper。這些模型已在OpenAI的開發(fā)者測試平臺(tái)上線。
GPT-Realtime-2專攻復(fù)雜任務(wù)處理,不僅能夠精準(zhǔn)調(diào)用外部工具,還能從容應(yīng)對用戶在對話中的隨時(shí)打斷,并在超長語音交互中保持高度的語境連貫性。GPT-Realtime-Translate主攻跨語言溝通,支持將70多種源語言實(shí)時(shí)轉(zhuǎn)化為13種目標(biāo)語言,適用于智能客服和在線教育等全球化應(yīng)用場景。GPT-Realtime-Whisper則專注于實(shí)時(shí)語音識(shí)別,在用戶發(fā)言的同時(shí),該模型可同步生成字幕和會(huì)議紀(jì)要,甚至自動(dòng)觸發(fā)后續(xù)的工作流更新。
目前,包括在線房地產(chǎn)平臺(tái)Zillow、在線旅行社Priceline以及歐洲電信運(yùn)營商德國電信在內(nèi)的多家企業(yè)客戶,正對上述模型進(jìn)行早期測試。定價(jià)方面,GPT-Realtime-2的音頻輸入成本為每百萬Token 32美元起;GPT-Realtime-Translate與GPT-Realtime-Whisper的計(jì)費(fèi)標(biāo)準(zhǔn)則分別為每分鐘0.034美元和0.017美元。
5月8日,OpenAI面向開發(fā)者正式發(fā)布了三款全新音頻大模型,旨在大幅提升語音智能體的交互自然度,并賦予其在實(shí)時(shí)對話中直接執(zhí)行任務(wù)的能力
2026-05-08 11:53:52OpenAI開放三大實(shí)時(shí)音頻模型OpenAI正式發(fā)布了全新大模型GPT-5.4,宣稱這是目前能力最強(qiáng)、效率最高的專業(yè)工作前沿模型
2026-03-06 09:22:22號(hào)稱最強(qiáng)模型OpenAI