OpenAI 在為期12天的發(fā)布周期中,最終推出了新的推理系列模型o3和o3-mini。這些模型是o1系列的繼任者,旨在通過增加思考時間來提高回答準確率。由于版權(quán)問題,OpenAI跳過了o2這一命名。
從昨天開始,OpenAI已經(jīng)開始預熱新模型,并且有開發(fā)者在網(wǎng)上發(fā)現(xiàn)了對o3_min_safety_test的引用。然而,o3系列模型不會直接公開發(fā)布,而是先進行安全測試。Sam Altman提到,他們計劃在一月底左右推出o3-mini,并在不久后推出完整的o3模型。
o3模型在ARC-AGI基準上取得了突破,成為首個達到該基準優(yōu)良水平的AI模型。在高效率模式下,o3的最低性能為75.7%,而在低效率模式下則能達到87.5%。ARC-AGI基準要求AI根據(jù)輸入輸出示例尋找規(guī)律并預測輸出,類似于圖形推理問題。盡管每項任務的成本較高,但o3展示了人工智能適應新任務能力的重大飛躍。
不過,報告也指出,ARC-AGI并不是對AGI的嚴峻考驗,通過ARC-AGI并不等于實現(xiàn)AGI。o3在一些簡單任務上仍然失敗,表明其與人類智能存在根本差異。明年,ARC Prize Fundation將與OpenAI合作開發(fā)下一代基準,預計會對o3構(gòu)成重大挑戰(zhàn)。
o3在編碼能力和數(shù)學問題上的表現(xiàn)也顯著提升。在SWE-bench Verified基準上,o3的準確率約為71.7%,比o1高出20%以上。在競賽數(shù)學上,o3的準確率達到96.7%,在GPQA Diamond基準上達到87.7%。此外,在EpochAI Frontier Math基準上,o3的準確率超過25%,而其他產(chǎn)品低于2%。
o3-mini是一個更經(jīng)濟高效的版本,專注于提升推理速度和降低成本。它支持三種不同的推理時間選項——低、中、高。與o1相比,o3-mini在Codeforces上的性能具有顯著的成本效益,使其非常適合編程。在數(shù)學問題上,o3-mini (low) 實現(xiàn)了與gpt-4o相當?shù)牡脱舆t。
北京時間12月6日凌晨,OpenAI舉辦了“12天12場直播”活動的首秀,推出了推理大模型o1的滿血版本和進階模式,以及每月收費200美元(約合人民幣1450元)的ChatGPT Pro訂閱服務
2024-12-07 07:31:00OpenAI新功能太強大7月4日晚,一名初次乘坐飛機的乘客在浙江衢州機場誤將國航航班的應急艙門當作廁所門開啟,導致滑梯意外彈出。此事得到了衢州機場公安分局的確認,他們透露該事件是由于乘客的無心之失所致,相應航班因此取消
2024-07-05 16:16:38國航航班滑梯深夜意外放出《密室大逃脫6》帶著新一季的冒險啟程,大神版與明星版的錄制工作正如火如荼地進行。目前,節(jié)目的前兩期已順利完成錄制,第三期大神版也圓滿落幕,而明星版正緊隨其后,持續(xù)拍攝中
2024-07-08 16:57:10吳謹言密室大逃脫路透作為上個月宣布的里程碑式協(xié)議的一部分,蘋果公司將獲得OpenAI董事會觀察員職位,進一步加強了這對曾經(jīng)不太可能合作的伙伴之間的關(guān)系。
2024-07-03 10:24:34蘋果將獲OpenAI董事會觀察員職位