GPT-5.4最具突破性的能力在于其原生電腦操控功能,這也是OpenAI首次在通用模型中內(nèi)置該能力。通過(guò)API和Codex,該模型可像人類(lèi)一樣操控計(jì)算機(jī),跨應(yīng)用完成多步驟工作流程。具體而言,GPT-5.4既可通過(guò)Playwright等庫(kù)編寫(xiě)代碼來(lái)操控計(jì)算機(jī),也可直接響應(yīng)截圖發(fā)出鼠標(biāo)和鍵盤(pán)指令,開(kāi)發(fā)者還可配置自定義確認(rèn)策略以適配不同風(fēng)險(xiǎn)容忍度場(chǎng)景。
在網(wǎng)絡(luò)搜索能力方面,BrowseComp測(cè)試顯示GPT-5.4較GPT-5.2提升17個(gè)百分點(diǎn),GPT-5.4 Pro更以89.3%的成績(jī)創(chuàng)下該基準(zhǔn)測(cè)試的最高評(píng)分紀(jì)錄。地產(chǎn)科技公司Mainstay的CEO Dod Fraser表示,在覆蓋約3萬(wàn)個(gè)房產(chǎn)稅門(mén)戶的測(cè)試中,GPT-5.4首次嘗試成功率達(dá)95%,三次內(nèi)成功率達(dá)100%,相比此前的計(jì)算機(jī)操控模型大幅提升,同時(shí)完成速度加快約3倍,tokens消耗減少約70%。
隨著工具生態(tài)規(guī)模擴(kuò)大,如何高效管理工具調(diào)用成為制約代理系統(tǒng)落地的瓶頸。GPT-5.4在API中引入"工具搜索"(Tool Search)機(jī)制,從根本上改變了工具定義的傳遞方式。新機(jī)制下,模型僅接收工具的輕量化列表,僅在實(shí)際需要使用某工具時(shí)才按需檢索其完整定義。OpenAI以具體數(shù)據(jù)佐證效果:在使用Scale的MCP Atlas基準(zhǔn)測(cè)試的250項(xiàng)任務(wù)中,啟用全部36個(gè)MCP服務(wù)器的配置下,工具搜索模式相較將全部MCP功能直接暴露于上下文的模式,在保持相同準(zhǔn)確率的前提下,總token用量減少47%。
與GPT-5.4同步發(fā)布的還有面向企業(yè)和金融機(jī)構(gòu)的“OpenAI金融服務(wù)”套件,核心產(chǎn)品是ChatGPT for Excel和Google Sheets(測(cè)試版)。該套件還整合了FactSet、MSCI、Third Bridge和Moody's等數(shù)據(jù)合作伙伴,并推出可復(fù)用的Skills功能,覆蓋盈利預(yù)覽、可比公司分析、DCF估值分析及投資備忘錄撰寫(xiě)等高頻金融工作場(chǎng)景。
OpenAI正式發(fā)布了全新大模型GPT-5.4,宣稱這是目前能力最強(qiáng)、效率最高的專業(yè)工作前沿模型
2026-03-06 09:22:22號(hào)稱最強(qiáng)模型OpenAI