电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

OpenAI發(fā)布最強專業(yè)模型GPT-5.4 原生電腦操控功能突破邊界

關(guān)鍵詞:
2026-03-06 09:15:26  新浪財經(jīng)

OpenAI發(fā)布最強專業(yè)模型GPT-5.4 原生電腦操控功能突破邊界!OpenAI發(fā)布了全新的旗艦基礎(chǔ)模型GPT-5.4,該模型在ChatGPT、API以及開發(fā)工具Codex中同步上線。OpenAI稱GPT-5.4是“迄今能力最強、最高效的專業(yè)工作前沿模型”,重點面向企業(yè)辦公與復(fù)雜知識工作場景。相比此前版本,GPT-5.4的最大變化在于強化了AI智能體的能力。在API和Codex中,GPT-5.4首次實現(xiàn)了原生級“電腦操作”功能,支持智能體跨軟件執(zhí)行復(fù)雜工作流。

GPT-5.4不僅能生成文本或代碼,還首次將原生電腦操控能力引入通用模型,能直接操作電腦軟件、瀏覽網(wǎng)頁、控制鼠標和鍵盤完成任務(wù),并可與電子表格、金融分析工具等企業(yè)應(yīng)用深度整合,深度嵌入微軟Excel和谷歌表格。在ChatGPT中,GPT-5.4支持“提前展示思維過程”,允許用戶在模型響應(yīng)過程中調(diào)整任務(wù)方向,并提升了深度網(wǎng)頁搜索與長邏輯語境下的上下文保持能力。

業(yè)內(nèi)認為,GPT-5.4的一系列升級標志著AI模型正從“對話工具”走向自動化執(zhí)行任務(wù)的數(shù)字代理系統(tǒng),進一步滲透企業(yè)生產(chǎn)力軟件與專業(yè)知識工作。OpenAI本周四同時推出兩個版本,包括更擅長復(fù)雜推理的GPT-5.4 Thinking以及高性能的GPT-5.4 Pro,分別面向付費用戶和高端企業(yè)用戶。

在計算機操控基準測試OSWorld-Verified中,GPT-5.4以75.0%的成功率超越人類平均水平72.4%,較前代GPT-5.2的47.3%大幅躍升。同期發(fā)布的財務(wù)服務(wù)套件顯示,GPT-5.4在OpenAI內(nèi)部投行基準測試中的得分從GPT-5的43.7%躍升至88.0%。早期測試機構(gòu)給出積極反饋。投資公司W(wǎng)alleye Capital的AI解決方案主管Daniel Swiecki表示,GPT-5.4在內(nèi)部財務(wù)和Excel評估中準確率提升了30個百分點。AI人才平臺Mercor的CEO Brendan Foody稱其為該公司“迄今嘗試過的最佳模型”,并表示GPT-5.4已在Mercor面向?qū)I(yè)服務(wù)工作的APEX-Agents基準測試中排名第一。

GPT-5.4最具突破性的能力在于其原生電腦操控功能,這也是OpenAI首次在通用模型中內(nèi)置該能力。通過API和Codex,該模型可像人類一樣操控計算機,跨應(yīng)用完成多步驟工作流程。具體而言,GPT-5.4既可通過Playwright等庫編寫代碼來操控計算機,也可直接響應(yīng)截圖發(fā)出鼠標和鍵盤指令,開發(fā)者還可配置自定義確認策略以適配不同風險容忍度場景。

在網(wǎng)絡(luò)搜索能力方面,BrowseComp測試顯示GPT-5.4較GPT-5.2提升17個百分點,GPT-5.4 Pro更以89.3%的成績創(chuàng)下該基準測試的最高評分紀錄。地產(chǎn)科技公司Mainstay的CEO Dod Fraser表示,在覆蓋約3萬個房產(chǎn)稅門戶的測試中,GPT-5.4首次嘗試成功率達95%,三次內(nèi)成功率達100%,相比此前的計算機操控模型大幅提升,同時完成速度加快約3倍,tokens消耗減少約70%。

隨著工具生態(tài)規(guī)模擴大,如何高效管理工具調(diào)用成為制約代理系統(tǒng)落地的瓶頸。GPT-5.4在API中引入"工具搜索"(Tool Search)機制,從根本上改變了工具定義的傳遞方式。新機制下,模型僅接收工具的輕量化列表,僅在實際需要使用某工具時才按需檢索其完整定義。OpenAI以具體數(shù)據(jù)佐證效果:在使用Scale的MCP Atlas基準測試的250項任務(wù)中,啟用全部36個MCP服務(wù)器的配置下,工具搜索模式相較將全部MCP功能直接暴露于上下文的模式,在保持相同準確率的前提下,總token用量減少47%。

與GPT-5.4同步發(fā)布的還有面向企業(yè)和金融機構(gòu)的“OpenAI金融服務(wù)”套件,核心產(chǎn)品是ChatGPT for Excel和Google Sheets(測試版)。該套件還整合了FactSet、MSCI、Third Bridge和Moody's等數(shù)據(jù)合作伙伴,并推出可復(fù)用的Skills功能,覆蓋盈利預(yù)覽、可比公司分析、DCF估值分析及投資備忘錄撰寫等高頻金融工作場景。

在內(nèi)部投行基準測試中,GPT-5.4 Thinking的得分從GPT-5的43.7%躍升至88.0%;在模擬初級投行分析師電子表格建模任務(wù)的測試中,GPT-5.4平均得分87.3%,遠高于GPT-5.2的68.4%。法律AI平臺Harvey的應(yīng)用研究主管Niko Grupen表示,GPT-5.4在該公司BigLaw Bench評估中得分91%,在結(jié)構(gòu)化復(fù)雜交易分析、跨長篇合同保持準確性以及提供法律從業(yè)者所需的高度細節(jié)方面優(yōu)于其他模型。

OpenAI在多個衡量真實職場輸出的基準測試上展示了GPT-5.4的能力邊界。在GDPval測試中,GPT-5.4在83.0%的比較中達到或超越行業(yè)專業(yè)人士水平,高于GPT-5.2的71.0%。在演示文稿質(zhì)量評估中,人類評審在68.0%的情況下更偏好GPT-5.4的輸出,原因包括更強的視覺美感、更豐富的視覺多樣性以及更有效的圖像生成應(yīng)用。

在幻覺和事實錯誤控制方面,OpenAI表示GPT-5.4是其“迄今最具事實準確性的模型”。在編程能力方面,GPT-5.4在SWE-Bench Pro上的表現(xiàn)與GPT-5.3-Codex持平或更優(yōu),且在各推理強度設(shè)置下延遲更低。GitHub首席產(chǎn)品官Mario Rodriguez表示,GPT-5.4在邏輯推理及執(zhí)行復(fù)雜多步驟工具依賴工作流方面表現(xiàn)突出,適合企業(yè)采用。

GPT-5.4 Thinking面向需要深度推理的通用專業(yè)場景,GPT-5.4 Pro則專為最復(fù)雜任務(wù)設(shè)計,追求性能上限。在ChatGPT端,GPT-5.4 Thinking從本周四起向Plus、Team及Pro用戶開放,取代此前的GPT-5.2 Thinking。GPT-5.4 Pro僅限Pro及Enterprise計劃用戶使用。免費用戶亦可在系統(tǒng)自動路由時有限接觸GPT-5.4。企業(yè)和教育計劃用戶可通過管理員設(shè)置提前開啟訪問權(quán)限。

在API端,GPT-5.4以gpt-5.4標識符提供,GPT-5.4 Pro以gpt-5.4-pro提供,兩者均可在Codex開發(fā)平臺使用。API最大輸出為12.8萬token,與此前模型保持一致。API及Codex同時支持最高100萬token的上下文窗口,適合跨步驟長鏈路任務(wù)的規(guī)劃、執(zhí)行與驗證。

在API定價上,GPT-5.4的價格相較GPT-5.2有所上調(diào)。當單次輸入超過27.2萬token時,超出部分將按兩倍標準費率計費。OpenAI對較高定價給出解釋:一是在編程、計算機操控、深度研究、高級文檔生成及工具調(diào)用等復(fù)雜任務(wù)上能力更強;二是來自研究路線圖的重大技術(shù)進步;三是更高效的推理機制在相同任務(wù)上消耗更少推理tokens,一定程度上抵消了單價上升的影響。OpenAI同時表示,即便提價,GPT-5.4的定價仍低于同等能力的競品前沿模型。

(責任編輯:0882)
關(guān)閉

機車店店主:賽道于心 熱愛致遠 專注成就夢想

機車店店主,賽道于心熱愛致遠2026-04-03 14:29:12

豬精液制成的眼藥水可治療眼腫瘤 創(chuàng)新療法引發(fā)關(guān)注

豬精液制成的眼藥水可治療眼腫瘤2026-04-03 14:27:01

李榮浩方否認抄襲 常規(guī)和聲非原創(chuàng)

李榮浩方否認抄襲2026-04-03 14:24:35

官方通報重慶喜來登大酒店冒煙 洗衣房事故無傷亡

官方通報重慶喜來登大酒店冒煙2026-04-03 14:16:00

美軍士兵被允許在基地攜帶個人槍支 出于自我保護權(quán)利

美軍士兵被允許在基地攜帶個人槍支2026-04-03 13:17:14

美國F-15戰(zhàn)斗機追擊伊朗無人機 天價戰(zhàn)機敗北之謎

美國F-15戰(zhàn)斗機追擊伊朗無人機2026-04-03 13:38:04

美國被曝想用?;饟Q霍爾木茲海峽通航 多國商討應(yīng)對方案

美國被曝想用停火換霍爾木茲海峽通航2026-04-03 12:37:53

俄羅斯10萬噸石油抵達古巴,特朗普:沒有任何意見 緩解古巴能源危機

俄羅斯10萬噸石油抵達古巴,特朗普,沒有任何意見2026-04-03 14:20:31

李榮浩方否認抄襲 常規(guī)和聲非原創(chuàng)

李榮浩方否認抄襲2026-04-03 14:24:35

豬精液制成的眼藥水可治療眼腫瘤 創(chuàng)新療法引發(fā)關(guān)注

豬精液制成的眼藥水可治療眼腫瘤2026-04-03 14:27:01

經(jīng)濟日報頭版頭條再發(fā)文:駁“中國經(jīng)濟治理失效論” 展現(xiàn)治理韌性與成效

經(jīng)濟日報頭版頭條再發(fā)文,駁中國經(jīng)濟治理失效論2026-04-03 14:13:24

男子在青旅洗澡被女保潔員闖入 引發(fā)隱私爭議

男子在青旅洗澡被女保潔員闖入2026-04-03 14:06:53

61歲女子腦內(nèi)取出8厘米活蟲!

61歲女子腦內(nèi)取出8厘米活蟲2026-04-03 14:17:48

美以襲伊月余,阿拉伯國家損失超千億美元!阿聯(lián)酋或?qū)σ林苯訁?zhàn) 海灣局勢劇變

美以襲伊月余,阿拉伯國家損失超千億美元,阿聯(lián)酋或?qū)σ林苯訁?zhàn)2026-04-03 13:19:00

伊朗等三方聯(lián)合襲擊以色列 多地遭導(dǎo)彈攻擊

伊朗等三方聯(lián)合襲擊以色列2026-04-03 13:16:58

美軍傷亡最新數(shù)據(jù)曝光!中東沖突致數(shù)百傷亡

美軍傷亡最新數(shù)據(jù)曝光2026-04-03 11:36:13

韓國導(dǎo)演被圍毆致死,施暴者大笑并搶奪報警手機 悲劇引發(fā)公眾憤怒

韓國導(dǎo)演被圍毆致死,施暴者大笑并搶奪報警手機2026-04-03 14:15:15

機車店店主:賽道于心 熱愛致遠 專注成就夢想

機車店店主,賽道于心熱愛致遠2026-04-03 14:29:12

美軍已經(jīng)不可能全身而退了!

美軍已經(jīng)不可能全身而退了2026-04-03 13:34:02

天龍三號 對標獵鷹9號的中國火箭

天龍三號2026-04-03 13:23:14

曝FBI局長等人離職事宜正在討論中 多名官員或離開政府

曝FBI局長等人離職事宜正在討論中2026-04-03 13:30:16

美軍計劃在中東最大軍事基地建地堡 漫長工期引質(zhì)疑

美軍計劃在中東最大軍事基地建地堡2026-04-03 14:28:40

南京功夫餛飩老板煮餛飩變表演七塊五一碗

江蘇七塊五的餛飩六塊是表演費2026-04-03 14:06:35

第一個準備下場參戰(zhàn)的中東強國已經(jīng)挨打 胡塞武裝遭密集空襲

第一個準備下場參戰(zhàn)的中東強國已經(jīng)挨打2026-04-03 13:37:35

伊朗現(xiàn)在到底誰在掌權(quán)?革命衛(wèi)隊實際掌控

伊朗現(xiàn)在到底誰在掌權(quán)2026-04-03 13:16:39

戰(zhàn)事未了美先言勝遭市場“打臉” 伊朗發(fā)地面戰(zhàn)警告 股市油價齊震蕩

戰(zhàn)事未了美先言勝遭市場打臉伊朗發(fā)地面戰(zhàn)警告2026-04-03 14:22:38

白宮緊急下架特朗普講話

白宮緊急下架特朗普講話2026-04-03 13:34:24

石破茂公開評價特朗普喜歡被奉承 溝通需留足面子

石破茂公開評價特朗普喜歡被奉承2026-04-03 13:28:25

金正恩與女兒視察寵物商店 現(xiàn)場擼貓!

金正恩與女兒視察寵物商店 現(xiàn)場擼貓2026-04-03 13:35:54

讓張雪冒出來還要多些產(chǎn)業(yè)伯樂

讓張雪冒出來還要多些產(chǎn)業(yè)伯樂2026-04-03 14:10:35

連開兩女將 特朗普內(nèi)閣因何重組!

連開兩女將 特朗普內(nèi)閣因何重組2026-04-03 14:18:29

已經(jīng)有休春假的小朋友立功了!小孩哥春游發(fā)現(xiàn)罌粟秒報警

小孩哥春游發(fā)現(xiàn)罌粟秒報警2026-04-03 14:08:28

白鹿維權(quán)獲賠1萬元 造謠白鹿黑粉被判公開道歉

白鹿維權(quán)獲賠1萬元2026-04-03 14:09:10

李亞鵬回應(yīng)張雪賣車捐款嫣然 陳光標尷尬收場

李亞鵬回應(yīng)張雪賣車捐款嫣然2026-04-03 14:05:14

臺當局總預(yù)算僵局未解 韓國瑜喊話 吁盡速審議

臺當局總預(yù)算僵局未解韓國瑜喊話2026-04-03 14:22:43

相關(guān)新聞