在5月14日的凌晨,OpenAI舉辦了一場名為“春季更新”的線上活動,期間揭曉了他們的新旗艦生成式AI模型——GPT-4o。這個模型名稱中的“o”蘊含深意,取自英文“Omni”,寓意著“全能”或“涵蓋一切”,體現(xiàn)了技術(shù)的廣度與深度。
GPT-4o的一大亮點在于它對語音交互的細(xì)膩捕捉。它不僅能夠無縫融入或中斷對話,還能精妙識別發(fā)言者的情緒與語氣,根據(jù)不同的場景或命令,生成多樣化的音調(diào)回復(fù),這些回復(fù)富含人性化的感情色彩,甚至能應(yīng)用戶要求演唱歌曲。
視覺處理能力上,GPT-4o實現(xiàn)了顯著飛躍。當(dāng)前,它已能夠辨認(rèn)并翻譯多種語言的菜單圖片,未來展望中,這項技術(shù)或?qū)⑹笴hatGPT具備“觀賞”實況體育賽事并解析規(guī)則的能力。此外,GPT-4o在圖像處理上更進(jìn)一步,不僅限于識別印刷文字,對手寫體同樣駕輕就熟,能解決數(shù)學(xué)方程、分析數(shù)據(jù),并解讀面部表情背后的情感。
語言處理能力方面,GPT-4o展現(xiàn)了其強大的多語言支持,目前可與用戶通過20種語言進(jìn)行音頻等形式的互動,最新升級極大地增強了其多語言服務(wù),涉及的語言種類擴展至約50種。
數(shù)據(jù)處理與性能方面,GPT-4o對比前代GPT-4Turbo及其他競爭模型,展現(xiàn)出顯著的優(yōu)勢,傳統(tǒng)基準(zhǔn)測試結(jié)果證明了其卓越性能。
情感智能也是GPT-4o的一大突破。在演示中,當(dāng)用戶表達(dá)緊張情緒時,GPT-4o以類似朋友的口吻進(jìn)行安慰,并引導(dǎo)用戶進(jìn)行深呼吸放松,實時分析呼吸聲以給出恰當(dāng)建議,實現(xiàn)了交互體驗的情感共鳴。
響應(yīng)速度方面,GPT-4o的提升令人矚目,最快可在232毫秒內(nèi)反饋對話,平均響應(yīng)時間僅320毫秒,幾近人類自然交流的速度,極大提升了與ChatGPT交流的流暢度,較GPT-3.5有質(zhì)的飛躍。
值得注意的是,GPT-4o在一定范圍內(nèi)提供了免費使用的機會。它在英語及編程領(lǐng)域的表現(xiàn)與GPT-4Turbo持平,非英語文本處理能力顯著增強,同時,API速度加快,速率限制放寬五倍,成本卻降低了50%,踐行了OpenAI讓更多人免費體驗高端AI技術(shù)的愿景。
OpenAI的高層對GPT-4o寄予厚望,認(rèn)為它是通向更自然人機交互的重要一步,展示了多模態(tài)交互的更高境界,彰顯了OpenAI在這一領(lǐng)域的前沿地位和技術(shù)領(lǐng)導(dǎo)力。
OpenAI在5月14日凌晨發(fā)布了其最新的旗艦AI模型GPT-4o,該模型標(biāo)志著AI技術(shù)的一個重要里程碑,并計劃推出PC桌面版ChatGPT
2024-05-14 09:22:27GPT-4o深夜炸場!AI實時視頻通話絲滑如人類