OpenAI最智能模型能夠推理圖片解鎖視覺與文本融合推理

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-04-17 08:27:45 IT之家

在今日凌晨的直播中，OpenAI 正式發(fā)布了 o3 和 o4-mini 模型。這些模型代表了 ChatGPT 能力的一次重大飛躍，適用于從普通用戶到高級研究人員的各種需求。

新的推理模型可以智能地使用和結(jié)合 ChatGPT 中的工具，如搜索網(wǎng)絡(luò)、分析上傳的文件、處理視覺輸入等。這些模型被訓(xùn)練來判斷何時以及如何使用工具來生成詳細且深思熟慮的答案，通常在不到一分鐘內(nèi)完成，從而更有效地解決復(fù)雜問題。

o3 是 OpenAI 最強大的推理模型，在編碼、數(shù)學(xué)、科學(xué)、視覺感知等領(lǐng)域表現(xiàn)出色。它適合需要多方面分析的高級查詢，在圖像、圖表和圖形等視覺任務(wù)上表現(xiàn)尤為突出。與前代相比，o3 在編程、商業(yè)咨詢和創(chuàng)意構(gòu)思等領(lǐng)域少犯 20% 的重大錯誤。

o4-mini 則是一個針對快速、成本效益推理優(yōu)化的小模型，在數(shù)學(xué)、編碼和視覺任務(wù)上展現(xiàn)出優(yōu)異性能。當提供 Python 解釋器時，o4-mini 在 AIME 2025 上得分 99.5%，并在非 STEM 任務(wù)及數(shù)據(jù)科學(xué)領(lǐng)域超越了前輩 o3-mini。由于其高效性，o4-mini 支持更高的使用限制，成為高容量、高吞吐量的選擇。

這兩個新模型支持更加自然的對話，通過參考記憶和過去的對話使響應(yīng)更加個性化和相關(guān)。開發(fā)過程中，大規(guī)模強化學(xué)習(xí)顯示出了“更多計算能力 = 更好性能”的趨勢。o3 相比 o1 在相同延遲和成本下提供了更高性能，并且隨著思考時間增加，性能持續(xù)提升。

這些模型能夠直接將圖像整合到思維鏈中，不僅查看圖像，還能利用圖像進行思考。用戶可以上傳白板照片、教科書圖表或手繪草圖，即使圖像質(zhì)量不佳，模型也能解讀并實時操作圖像，如旋轉(zhuǎn)、縮放或變換。此外，它們還可以訪問 ChatGPT 中的所有工具，并通過 API 使用自定義工具，以快速解決問題。

關(guān)于成本，o3 和 o4-mini 比之前的模型更高效。例如，在 2025 AIME 數(shù)學(xué)競賽中，o3 的性價比優(yōu)于 o1；同樣，o4-mini 也優(yōu)于 o3-mini。

安全性方面，o3 和 o4-mini 采用了更新的安全訓(xùn)練數(shù)據(jù)，新增了對生物威脅、惡意軟件生成和越獄等方面的拒絕提示。系統(tǒng)級緩解措施還包括一個推理 LLM 監(jiān)控器，用于標記潛在風(fēng)險領(lǐng)域的危險提示。

ChatGPT Plus、Pro 和 Team 用戶現(xiàn)在可以在模型選擇器中看到 o3、o4-mini 和 o4-mini-high，而 Enterprise 和 Edu 用戶將在一周后獲得訪問權(quán)限。免費用戶可以通過選擇“思考”來嘗試 o4-mini。所有計劃中的速率限制保持不變。預(yù)計幾周內(nèi)還將發(fā)布 o3-pro 版本，支持全部工具。目前 Pro 用戶仍可使用 o1-pro。此次更新展示了 OpenAI 將專業(yè)推理能力和自然對話能力相結(jié)合的發(fā)展方向。

(責(zé)任編輯：于浩淙 zx0176)

關(guān)閉

OpenAI最智能模型能夠推理圖片 解鎖視覺與文本融合推理

相關(guān)新聞

今日熱點

頻道熱點

OpenAI最智能模型能夠推理圖片解鎖視覺與文本融合推理