谷歌全新AI模型Gemini 3發(fā)布推理能力實(shí)現(xiàn)重大突破(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-11-19 07:57:25 每日經(jīng)濟(jì)新聞

Gemini 3在推理能力上取得了顯著進(jìn)步，在多項(xiàng)學(xué)術(shù)級(jí)基準(zhǔn)測(cè)試中展現(xiàn)出博士水平的表現(xiàn)。該模型在GPQA Diamond測(cè)試中獲得91.9%的高分，在數(shù)學(xué)領(lǐng)域的MathArena Apex基準(zhǔn)測(cè)試中取得23.4%的新成績，在事實(shí)準(zhǔn)確性方面于SimpleQA Verified測(cè)試中達(dá)到72.1%的得分。在多模態(tài)推理方面，Gemini 3同樣表現(xiàn)出色，在MMMU-Pro測(cè)試中獲得81%的分?jǐn)?shù)，在Video-MMMU測(cè)試中達(dá)到87.6%。這意味著該模型能夠高度可靠地處理科學(xué)和數(shù)學(xué)等廣泛領(lǐng)域的復(fù)雜問題。

谷歌產(chǎn)品負(fù)責(zé)人Tulsee Doshi表示：“在Gemini 3身上，我們看到了推理能力的巨大飛躍。它的響應(yīng)深度和細(xì)微程度是我們以前從未見過的?！背龢?biāo)準(zhǔn)版本外，谷歌還推出了Gemini 3 Deep Think增強(qiáng)推理模式，該模式在Humanity"s Last Exam測(cè)試中達(dá)到41.0%的成績，在GPQA Diamond測(cè)試中獲得93.8%的分?jǐn)?shù)。在ARC-AGI-2測(cè)試中，Deep Think模式創(chuàng)下了45.1%的前所未有成績，展示了其解決新穎挑戰(zhàn)的能力。谷歌表示，該模式正在接受額外的安全評(píng)估，將在未來幾周內(nèi)向Google AI Ultra訂閱用戶開放。

在代碼生成領(lǐng)域，Gemini 3被谷歌稱為“迄今構(gòu)建的最佳vibe coding和智能體編碼模型”。該模型在WebDev Arena排行榜上以1487分的高分登頂，在衡量模型通過終端操作計(jì)算機(jī)能力的Terminal-Bench 2.0測(cè)試中獲得54.2%的分?jǐn)?shù)，在評(píng)估代碼智能體的SWE-bench Verified基準(zhǔn)測(cè)試中達(dá)到76.2%，遠(yuǎn)超Gemini 2.5 Pro的表現(xiàn)。開發(fā)者可以通過Google AI Studio、Vertex AI、Gemini CLI以及Cursor、GitHub、JetBrains、Manus和Replit等第三方平臺(tái)訪問Gemini 3。

谷歌同時(shí)推出了以智能體為先的全新開發(fā)平臺(tái)Google Antigravity，該平臺(tái)利用Gemini 3的高級(jí)推理、工具使用和智能體編碼能力，將AI輔助從開發(fā)者工具箱中的一個(gè)工具轉(zhuǎn)變?yōu)橹鲃?dòng)合作伙伴。DeepMind首席技術(shù)官Koray Kavukcuoglu表示：“智能體可以在你的編輯器、終端和瀏覽器之間工作，以最佳方式幫助你構(gòu)建應(yīng)用程序?！?/p>

關(guān)閉

谷歌全新AI模型Gemini 3發(fā)布 推理能力實(shí)現(xiàn)重大突破(2)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

谷歌全新AI模型Gemini 3發(fā)布推理能力實(shí)現(xiàn)重大突破(2)