馬斯克宣布Grok4發(fā)布 超越人類推理能力!xAI終于發(fā)布了下一代大模型Grok 4,其能力超乎想象。北京時(shí)間今天中午12點(diǎn)左右,馬斯克在直播中表示這是世界上最好的AI,并展示了其強(qiáng)大功能。
Grok 4無需事先查看題目就能在SAT考試中獲得滿分,GRE任何學(xué)科也能接近滿分,超過了所有研究生的水平。馬斯克認(rèn)為Grok 4可以實(shí)現(xiàn)科學(xué)新發(fā)現(xiàn)。由于計(jì)算能力和強(qiáng)化學(xué)習(xí)的提升,Grok 4的推理能力比前代提升了10倍。從Grok 2到Grok 4的技術(shù)范式不斷升級(jí),包括下一個(gè)token預(yù)測(cè)、預(yù)訓(xùn)練計(jì)算、預(yù)訓(xùn)練+RL和RL計(jì)算。
Grok 4還增強(qiáng)了調(diào)用工具的能力,在各類高難度Benchmark上表現(xiàn)遠(yuǎn)超SOTA。在HLE(人類最后的考試)中,Grok 4使用工具后的成績(jī)?yōu)?8.6%,而Grok 4 Heavy的成績(jī)達(dá)到了44.4%。如果讓大模型花費(fèi)更多時(shí)間思考并適當(dāng)使用外部工具,HLE分?jǐn)?shù)能進(jìn)一步提升到50.7%。此外,在GPQA、AIME25、LCB、HMMT25和USAMO25等基準(zhǔn)測(cè)試中,Grok 4 Heavy均取得了最新SOTA。
Grok 4已經(jīng)實(shí)現(xiàn)了博士后水平,在所有學(xué)科都能表現(xiàn)出色。馬斯克多次強(qiáng)調(diào),Grok將在今年內(nèi)實(shí)現(xiàn)新的科學(xué)技術(shù)發(fā)現(xiàn)。根據(jù)Artificial Analysis的評(píng)估,Grok 4總成績(jī)達(dá)到了73分,領(lǐng)先于o3、Gemini 2.5 Pro、Claude 4 Opus和DeepSeek R1 0528。
Grok 4不僅在語言基準(zhǔn)測(cè)試中表現(xiàn)出色,還在語音能力、角色多樣性等方面得到了加強(qiáng)。語音速度快了2倍,支持5種語音,單日用戶總停留時(shí)長(zhǎng)提升了10倍。新增的角色Eve和Sal已在iOS版Grok中可用,其中Sal支持多種性格,Eve可以唱歌和低語。
在ARC-AGI基準(zhǔn)測(cè)試中,Grok 4取得了最新SOTA,特別是在ARC-AGI-2上達(dá)到15.9%。在Vending-Bench基準(zhǔn)測(cè)試中,Grok 4也超越了其他模型,顯示了其在真實(shí)物理世界中執(zhí)行復(fù)雜操作任務(wù)的能力。
Grok 4可通過API調(diào)用,提供256K tokens的上下文窗口,現(xiàn)已開放使用。DannyLimanseta用Grok 4在4小時(shí)內(nèi)制作了一款FPS射擊游戲,效果非常不錯(cuò)。接下來,xAI還將發(fā)布代碼模型、多模態(tài)智能體以及視頻生成模型。目前,Grok 4已經(jīng)上線,但需要付費(fèi)使用,價(jià)格較為昂貴。年付SuperGrok為300美元,SuperGrok Heavy則為每年3000美元。