OpenAI最智能模型能夠推理圖片解鎖視覺(jué)與文本融合推理

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-04-17 08:27:45 IT之家

在今日凌晨的直播中，OpenAI 正式發(fā)布了 o3 和 o4-mini 模型。這些模型代表了 ChatGPT 能力的一次重大飛躍，適用于從普通用戶到高級(jí)研究人員的各種需求。

新的推理模型可以智能地使用和結(jié)合 ChatGPT 中的工具，如搜索網(wǎng)絡(luò)、分析上傳的文件、處理視覺(jué)輸入等。這些模型被訓(xùn)練來(lái)判斷何時(shí)以及如何使用工具來(lái)生成詳細(xì)且深思熟慮的答案，通常在不到一分鐘內(nèi)完成，從而更有效地解決復(fù)雜問(wèn)題。

o3 是 OpenAI 最強(qiáng)大的推理模型，在編碼、數(shù)學(xué)、科學(xué)、視覺(jué)感知等領(lǐng)域表現(xiàn)出色。它適合需要多方面分析的高級(jí)查詢，在圖像、圖表和圖形等視覺(jué)任務(wù)上表現(xiàn)尤為突出。與前代相比，o3 在編程、商業(yè)咨詢和創(chuàng)意構(gòu)思等領(lǐng)域少犯 20% 的重大錯(cuò)誤。

o4-mini 則是一個(gè)針對(duì)快速、成本效益推理優(yōu)化的小模型，在數(shù)學(xué)、編碼和視覺(jué)任務(wù)上展現(xiàn)出優(yōu)異性能。當(dāng)提供 Python 解釋器時(shí)，o4-mini 在 AIME 2025 上得分 99.5%，并在非 STEM 任務(wù)及數(shù)據(jù)科學(xué)領(lǐng)域超越了前輩 o3-mini。由于其高效性，o4-mini 支持更高的使用限制，成為高容量、高吞吐量的選擇。

這兩個(gè)新模型支持更加自然的對(duì)話，通過(guò)參考記憶和過(guò)去的對(duì)話使響應(yīng)更加個(gè)性化和相關(guān)。開(kāi)發(fā)過(guò)程中，大規(guī)模強(qiáng)化學(xué)習(xí)顯示出了“更多計(jì)算能力 = 更好性能”的趨勢(shì)。o3 相比 o1 在相同延遲和成本下提供了更高性能，并且隨著思考時(shí)間增加，性能持續(xù)提升。

這些模型能夠直接將圖像整合到思維鏈中，不僅查看圖像，還能利用圖像進(jìn)行思考。用戶可以上傳白板照片、教科書(shū)圖表或手繪草圖，即使圖像質(zhì)量不佳，模型也能解讀并實(shí)時(shí)操作圖像，如旋轉(zhuǎn)、縮放或變換。此外，它們還可以訪問(wèn) ChatGPT 中的所有工具，并通過(guò) API 使用自定義工具，以快速解決問(wèn)題。

12 全文共 2 頁(yè)下一頁(yè)

關(guān)閉

OpenAI最智能模型能夠推理圖片 解鎖視覺(jué)與文本融合推理

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

OpenAI最智能模型能夠推理圖片解鎖視覺(jué)與文本融合推理