OpenAI推出GPT4.5研究預覽版情商更高、幻覺更少

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-03-01 01:55:53 新浪財經(jīng)

OpenAI推出GPT4.5研究預覽版情商更高、幻覺更少！OpenAI周四在System Card報告中推出了GPT-4.5的研究預覽版，這是其迄今最大、知識最豐富的模型。該模型現(xiàn)已向每月訂閱費用200美元的ChatGPT Pro用戶開放，下周將向每月20美元的ChatGPT Plus用戶開放。OpenAI首席執(zhí)行官Altman表示，屆時公司將增加數(shù)萬塊GPU，提供算力支撐。

GPT-4.5在GPT-4的基礎(chǔ)上進一步擴展了預訓練，設(shè)計上比強大的stem推理模型更通用。早期測試表明，與GPT-4.5互動感覺更自然，它擁有更廣泛的知識庫，更符合用戶意圖，情商更高，適合寫作、編程和解決實際問題等任務(wù)，而且幻覺更少。例如，在面對“我考試失敗了，心情很低落”這樣的輸入時，GPT-4.5會先詢問用戶是否想聊聊這個問題，還是需要一些分散注意力的方法，顯示出更高的情感智能。早期測試顯示，GPT-4.5的幻覺率為37%，而前代模型GPT-4o的幻覺率接近60%。

GPT-4.5最初將作為“研究預覽版”，提供給一小部分軟件開發(fā)者及支付每月200美元訂閱費用的ChatGPT Pro用戶。公司計劃從首批試用者那里收集反饋。Altman在X平臺發(fā)文稱，將在下周正式發(fā)布GPT-4.5時增加數(shù)萬塊GPU。自2022年底推出ChatGPT以來，OpenAI陸續(xù)發(fā)布了多個日益先進的系統(tǒng)，但目前面臨來自中國新興企業(yè)DeepSeek、馬斯克旗下的xAI以及Anthropic等競爭對手的激烈競爭。這些公司在近幾周相繼推出了新的AI模型，如Anthropic的Claude 3.7 Sonnet和馬斯克旗下xAI的Grok 3。

盡管每一代GPT模型的擴展都帶來了跨數(shù)學、寫作和編程等多個領(lǐng)域的性能提升，但單純依賴數(shù)據(jù)和計算能力的擴展所帶來的收益正在逐步減少。在多個AI基準測試中，GPT-4.5的表現(xiàn)不及DeepSeek、Anthropic以及OpenAI自身開發(fā)的新一代推理模型。OpenAI研究副總裁Nick Ryder表示，預計GPT-4.5的能力提升幅度將與GPT-3.5升級至GPT-4時的變化相當。OpenAI強調(diào)，GPT-4.5不是GPT-4o的直接替代品，后者仍然是公司API和ChatGPT平臺的主力模型。

從性能上看，GPT-4.5在多個方面超過了GPT-4o及其他許多AI模型。例如，在OpenAI的SimpleQA基準測試中，GPT-4.5的表現(xiàn)優(yōu)于GPT-4o和OpenAI的推理模型o1、o3-mini。然而，在編程能力方面，GPT-4.5在SWE-Bench Verified基準測試上的表現(xiàn)與GPT-4o和o3-mini相當，但遜色于OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在學術(shù)基準測試如AIME和 GPQA上，GPT-4.5的表現(xiàn)也不及領(lǐng)先的AI推理模型，但在數(shù)學和科學相關(guān)問題上仍然處于領(lǐng)先水平。

打造GPT-4.5的過程充滿挑戰(zhàn)。彭博新聞此前報道稱，該模型在公司內(nèi)部被稱為“Orion”，但在去年未能達到OpenAI設(shè)定的性能基準。為了解決這些問題，GPT-4.5采用了與其前代模型相同的核心技術(shù)，并結(jié)合人類反饋來優(yōu)化回答內(nèi)容。此外，OpenAI還利用從GPT-4.0訓練數(shù)據(jù)中提取的信息來進一步訓練GPT-4.5。分析認為，GPT-4.5的發(fā)布標志著OpenAI時代的一個轉(zhuǎn)折點。未來，OpenAI計劃在今年晚些時候發(fā)布GPT-5，將把GPT系列模型與o系列模型結(jié)合，構(gòu)建能夠自主判斷需要思考多久再生成回答的AI系統(tǒng)。目前，OpenAI正在與軟銀及其他投資者洽談融資，計劃籌集高達400億美元，使其估值達到3000億美元。與此同時，Anthropic也在進行一輪約35億美元的融資，估值超過600億美元。

(責任編輯：盧其龍 CN070)

關(guān)閉

OpenAI推出GPT4.5研究預覽版 情商更高、幻覺更少

相關(guān)新聞

今日熱點

頻道熱點

OpenAI推出GPT4.5研究預覽版情商更高、幻覺更少