媒體：GPT-4o更新 AI又來“炸場” 全能交互新時代

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-05-16 18:08:02 封面新聞

在5月14日的凌晨，OpenAI舉辦了一場名為“春季更新”的線上活動，期間揭曉了他們的新旗艦生成式AI模型——GPT-4o。這個模型名稱中的“o”蘊含深意，取自英文“Omni”，寓意著“全能”或“涵蓋一切”，體現(xiàn)了技術(shù)的廣度與深度。

GPT-4o的一大亮點在于它對語音交互的細(xì)膩捕捉。它不僅能夠無縫融入或中斷對話，還能精妙識別發(fā)言者的情緒與語氣，根據(jù)不同的場景或命令，生成多樣化的音調(diào)回復(fù)，這些回復(fù)富含人性化的感情色彩，甚至能應(yīng)用戶要求演唱歌曲。

視覺處理能力上，GPT-4o實現(xiàn)了顯著飛躍。當(dāng)前，它已能夠辨認(rèn)并翻譯多種語言的菜單圖片，未來展望中，這項技術(shù)或?qū)⑹笴hatGPT具備“觀賞”實況體育賽事并解析規(guī)則的能力。此外，GPT-4o在圖像處理上更進(jìn)一步，不僅限于識別印刷文字，對手寫體同樣駕輕就熟，能解決數(shù)學(xué)方程、分析數(shù)據(jù)，并解讀面部表情背后的情感。

語言處理能力方面，GPT-4o展現(xiàn)了其強大的多語言支持，目前可與用戶通過20種語言進(jìn)行音頻等形式的互動，最新升級極大地增強了其多語言服務(wù)，涉及的語言種類擴展至約50種。

數(shù)據(jù)處理與性能方面，GPT-4o對比前代GPT-4Turbo及其他競爭模型，展現(xiàn)出顯著的優(yōu)勢，傳統(tǒng)基準(zhǔn)測試結(jié)果證明了其卓越性能。

情感智能也是GPT-4o的一大突破。在演示中，當(dāng)用戶表達(dá)緊張情緒時，GPT-4o以類似朋友的口吻進(jìn)行安慰，并引導(dǎo)用戶進(jìn)行深呼吸放松，實時分析呼吸聲以給出恰當(dāng)建議，實現(xiàn)了交互體驗的情感共鳴。

響應(yīng)速度方面，GPT-4o的提升令人矚目，最快可在232毫秒內(nèi)反饋對話，平均響應(yīng)時間僅320毫秒，幾近人類自然交流的速度，極大提升了與ChatGPT交流的流暢度，較GPT-3.5有質(zhì)的飛躍。

值得注意的是，GPT-4o在一定范圍內(nèi)提供了免費使用的機會。它在英語及編程領(lǐng)域的表現(xiàn)與GPT-4Turbo持平，非英語文本處理能力顯著增強，同時，API速度加快，速率限制放寬五倍，成本卻降低了50%，踐行了OpenAI讓更多人免費體驗高端AI技術(shù)的愿景。

OpenAI的高層對GPT-4o寄予厚望，認(rèn)為它是通向更自然人機交互的重要一步，展示了多模態(tài)交互的更高境界，彰顯了OpenAI在這一領(lǐng)域的前沿地位和技術(shù)領(lǐng)導(dǎo)力。

(責(zé)任編輯：張佳鑫)

關(guān)閉

媒體：GPT-4o更新 AI又來“炸場” 全能交互新時代

相關(guān)新聞

今日熱點

頻道熱點