OpenAI開(kāi)放三大實(shí)時(shí)音頻模型 提升語(yǔ)音交互能力!5月8日,OpenAI面向開(kāi)發(fā)者正式發(fā)布了三款全新音頻大模型,旨在大幅提升語(yǔ)音智能體的交互自然度,并賦予其在實(shí)時(shí)對(duì)話中直接執(zhí)行任務(wù)的能力。隨著新版API的開(kāi)放,OpenAI正在跨越傳統(tǒng)的“語(yǔ)音轉(zhuǎn)錄”與“文本聊天”階段,向構(gòu)建具備實(shí)時(shí)監(jiān)聽(tīng)、翻譯及執(zhí)行能力的智能體延伸。
本次發(fā)布的三款核心模型分別為GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper,目前這些模型已在OpenAI的開(kāi)發(fā)者測(cè)試平臺(tái)上線。GPT-Realtime-2專(zhuān)攻復(fù)雜任務(wù)處理,能夠精準(zhǔn)調(diào)用外部工具,應(yīng)對(duì)用戶(hù)隨時(shí)打斷,并在超長(zhǎng)語(yǔ)音交互中保持高度語(yǔ)境連貫性。GPT-Realtime-Translate主攻跨語(yǔ)言溝通,支持將70多種源語(yǔ)言實(shí)時(shí)轉(zhuǎn)化為13種目標(biāo)語(yǔ)言,適用于智能客服和在線教育等全球化應(yīng)用場(chǎng)景。GPT-Realtime-Whisper則聚焦實(shí)時(shí)語(yǔ)音識(shí)別,在用戶(hù)發(fā)言時(shí)同步生成字幕和會(huì)議紀(jì)要,甚至自動(dòng)觸發(fā)后續(xù)工作流更新。
包括在線房地產(chǎn)平臺(tái)Zillow、在線旅行社Priceline以及歐洲電信運(yùn)營(yíng)商德國(guó)電信在內(nèi)的多家企業(yè)客戶(hù),正對(duì)這些模型進(jìn)行早期測(cè)試。定價(jià)方面,GPT-Realtime-2的音頻輸入成本為每百萬(wàn)Token 32美元起;GPT-Realtime-Translate與GPT-Realtime-Whisper的計(jì)費(fèi)標(biāo)準(zhǔn)則分別為每分鐘0.034美元和0.017美元。
OpenAI正式發(fā)布了全新大模型GPT-5.4,宣稱(chēng)這是目前能力最強(qiáng)、效率最高的專(zhuān)業(yè)工作前沿模型
2026-03-06 09:22:22號(hào)稱(chēng)最強(qiáng)模型OpenAI