馬斯克宣布Grok4發(fā)布超越人類推理能力

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-07-10 14:26:43 機(jī)器之心Pro

馬斯克宣布Grok4發(fā)布超越人類推理能力！xAI終于發(fā)布了下一代大模型Grok 4，其能力超乎想象。北京時(shí)間今天中午12點(diǎn)左右，馬斯克在直播中表示這是世界上最好的AI，并展示了其強(qiáng)大功能。

Grok 4無需事先查看題目就能在SAT考試中獲得滿分，GRE任何學(xué)科也能接近滿分，超過了所有研究生的水平。馬斯克認(rèn)為Grok 4可以實(shí)現(xiàn)科學(xué)新發(fā)現(xiàn)。由于計(jì)算能力和強(qiáng)化學(xué)習(xí)的提升，Grok 4的推理能力比前代提升了10倍。從Grok 2到Grok 4的技術(shù)范式不斷升級(jí)，包括下一個(gè)token預(yù)測(cè)、預(yù)訓(xùn)練計(jì)算、預(yù)訓(xùn)練+RL和RL計(jì)算。

Grok 4還增強(qiáng)了調(diào)用工具的能力，在各類高難度Benchmark上表現(xiàn)遠(yuǎn)超SOTA。在HLE（人類最后的考試）中，Grok 4使用工具后的成績(jī)?yōu)?8.6%，而Grok 4 Heavy的成績(jī)達(dá)到了44.4%。如果讓大模型花費(fèi)更多時(shí)間思考并適當(dāng)使用外部工具，HLE分?jǐn)?shù)能進(jìn)一步提升到50.7%。此外，在GPQA、AIME25、LCB、HMMT25和USAMO25等基準(zhǔn)測(cè)試中，Grok 4 Heavy均取得了最新SOTA。

Grok 4已經(jīng)實(shí)現(xiàn)了博士后水平，在所有學(xué)科都能表現(xiàn)出色。馬斯克多次強(qiáng)調(diào)，Grok將在今年內(nèi)實(shí)現(xiàn)新的科學(xué)技術(shù)發(fā)現(xiàn)。根據(jù)Artificial Analysis的評(píng)估，Grok 4總成績(jī)達(dá)到了73分，領(lǐng)先于o3、Gemini 2.5 Pro、Claude 4 Opus和DeepSeek R1 0528。

Grok 4不僅在語言基準(zhǔn)測(cè)試中表現(xiàn)出色，還在語音能力、角色多樣性等方面得到了加強(qiáng)。語音速度快了2倍，支持5種語音，單日用戶總停留時(shí)長(zhǎng)提升了10倍。新增的角色Eve和Sal已在iOS版Grok中可用，其中Sal支持多種性格，Eve可以唱歌和低語。

在ARC-AGI基準(zhǔn)測(cè)試中，Grok 4取得了最新SOTA，特別是在ARC-AGI-2上達(dá)到15.9%。在Vending-Bench基準(zhǔn)測(cè)試中，Grok 4也超越了其他模型，顯示了其在真實(shí)物理世界中執(zhí)行復(fù)雜操作任務(wù)的能力。

Grok 4可通過API調(diào)用，提供256K tokens的上下文窗口，現(xiàn)已開放使用。DannyLimanseta用Grok 4在4小時(shí)內(nèi)制作了一款FPS射擊游戲，效果非常不錯(cuò)。接下來，xAI還將發(fā)布代碼模型、多模態(tài)智能體以及視頻生成模型。目前，Grok 4已經(jīng)上線，但需要付費(fèi)使用，價(jià)格較為昂貴。年付SuperGrok為300美元，SuperGrok Heavy則為每年3000美元。

(責(zé)任編輯：0882)

關(guān)閉

馬斯克宣布Grok4發(fā)布 超越人類推理能力

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

馬斯克宣布Grok4發(fā)布超越人類推理能力