OpenAI發(fā)布最強(qiáng)專業(yè)模型GPT-5.4 原生電腦操控功能突破邊界(3)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-03-06 09:15:26 新浪財經(jīng)

在內(nèi)部投行基準(zhǔn)測試中，GPT-5.4 Thinking的得分從GPT-5的43.7%躍升至88.0%；在模擬初級投行分析師電子表格建模任務(wù)的測試中，GPT-5.4平均得分87.3%，遠(yuǎn)高于GPT-5.2的68.4%。法律AI平臺Harvey的應(yīng)用研究主管Niko Grupen表示，GPT-5.4在該公司BigLaw Bench評估中得分91%，在結(jié)構(gòu)化復(fù)雜交易分析、跨長篇合同保持準(zhǔn)確性以及提供法律從業(yè)者所需的高度細(xì)節(jié)方面優(yōu)于其他模型。

OpenAI在多個衡量真實職場輸出的基準(zhǔn)測試上展示了GPT-5.4的能力邊界。在GDPval測試中，GPT-5.4在83.0%的比較中達(dá)到或超越行業(yè)專業(yè)人士水平，高于GPT-5.2的71.0%。在演示文稿質(zhì)量評估中，人類評審在68.0%的情況下更偏好GPT-5.4的輸出，原因包括更強(qiáng)的視覺美感、更豐富的視覺多樣性以及更有效的圖像生成應(yīng)用。

在幻覺和事實錯誤控制方面，OpenAI表示GPT-5.4是其“迄今最具事實準(zhǔn)確性的模型”。在編程能力方面，GPT-5.4在SWE-Bench Pro上的表現(xiàn)與GPT-5.3-Codex持平或更優(yōu)，且在各推理強(qiáng)度設(shè)置下延遲更低。GitHub首席產(chǎn)品官Mario Rodriguez表示，GPT-5.4在邏輯推理及執(zhí)行復(fù)雜多步驟工具依賴工作流方面表現(xiàn)突出，適合企業(yè)采用。

GPT-5.4 Thinking面向需要深度推理的通用專業(yè)場景，GPT-5.4 Pro則專為最復(fù)雜任務(wù)設(shè)計，追求性能上限。在ChatGPT端，GPT-5.4 Thinking從本周四起向Plus、Team及Pro用戶開放，取代此前的GPT-5.2 Thinking。GPT-5.4 Pro僅限Pro及Enterprise計劃用戶使用。免費用戶亦可在系統(tǒng)自動路由時有限接觸GPT-5.4。企業(yè)和教育計劃用戶可通過管理員設(shè)置提前開啟訪問權(quán)限。

在API端，GPT-5.4以gpt-5.4標(biāo)識符提供，GPT-5.4 Pro以gpt-5.4-pro提供，兩者均可在Codex開發(fā)平臺使用。API最大輸出為12.8萬token，與此前模型保持一致。API及Codex同時支持最高100萬token的上下文窗口，適合跨步驟長鏈路任務(wù)的規(guī)劃、執(zhí)行與驗證。

在API定價上，GPT-5.4的價格相較GPT-5.2有所上調(diào)。當(dāng)單次輸入超過27.2萬token時，超出部分將按兩倍標(biāo)準(zhǔn)費率計費。OpenAI對較高定價給出解釋：一是在編程、計算機(jī)操控、深度研究、高級文檔生成及工具調(diào)用等復(fù)雜任務(wù)上能力更強(qiáng)；二是來自研究路線圖的重大技術(shù)進(jìn)步；三是更高效的推理機(jī)制在相同任務(wù)上消耗更少推理tokens，一定程度上抵消了單價上升的影響。OpenAI同時表示，即便提價，GPT-5.4的定價仍低于同等能力的競品前沿模型。

首頁上一頁 1 23共 3 頁

(責(zé)任編輯：0882)

關(guān)閉

OpenAI發(fā)布最強(qiáng)專業(yè)模型GPT-5.4 原生電腦操控功能突破邊界(3)

相關(guān)新聞

今日熱點

頻道熱點