Gemini 3在推理能力上取得了顯著進步,在多項學術級基準測試中展現(xiàn)出博士水平的表現(xiàn)。該模型在GPQA Diamond測試中獲得91.9%的高分,在數(shù)學領域的MathArena Apex基準測試中取得23.4%的新成績,在事實準確性方面于SimpleQA Verified測試中達到72.1%的得分。在多模態(tài)推理方面,Gemini 3同樣表現(xiàn)出色,在MMMU-Pro測試中獲得81%的分數(shù),在Video-MMMU測試中達到87.6%。這意味著該模型能夠高度可靠地處理科學和數(shù)學等廣泛領域的復雜問題。
谷歌產品負責人Tulsee Doshi表示:“在Gemini 3身上,我們看到了推理能力的巨大飛躍。它的響應深度和細微程度是我們以前從未見過的?!背龢藴拾姹就?,谷歌還推出了Gemini 3 Deep Think增強推理模式,該模式在Humanity"s Last Exam測試中達到41.0%的成績,在GPQA Diamond測試中獲得93.8%的分數(shù)。在ARC-AGI-2測試中,Deep Think模式創(chuàng)下了45.1%的前所未有成績,展示了其解決新穎挑戰(zhàn)的能力。谷歌表示,該模式正在接受額外的安全評估,將在未來幾周內向Google AI Ultra訂閱用戶開放。
在代碼生成領域,Gemini 3被谷歌稱為“迄今構建的最佳vibe coding和智能體編碼模型”。該模型在WebDev Arena排行榜上以1487分的高分登頂,在衡量模型通過終端操作計算機能力的Terminal-Bench 2.0測試中獲得54.2%的分數(shù),在評估代碼智能體的SWE-bench Verified基準測試中達到76.2%,遠超Gemini 2.5 Pro的表現(xiàn)。開發(fā)者可以通過Google AI Studio、Vertex AI、Gemini CLI以及Cursor、GitHub、JetBrains、Manus和Replit等第三方平臺訪問Gemini 3。
谷歌同時推出了以智能體為先的全新開發(fā)平臺Google Antigravity,該平臺利用Gemini 3的高級推理、工具使用和智能體編碼能力,將AI輔助從開發(fā)者工具箱中的一個工具轉變?yōu)橹鲃雍献骰锇?。DeepMind首席技術官Koray Kavukcuoglu表示:“智能體可以在你的編輯器、終端和瀏覽器之間工作,以最佳方式幫助你構建應用程序。”
谷歌今日推出了全新圖像生成與編輯模型Nano Banana Pro (Gemini 3 Pro Image)
2025-11-21 08:10:45谷歌發(fā)布新一代圖像生成模型11月19日,谷歌發(fā)布了其最新、最先進的基礎模型Gemini 3,用戶現(xiàn)在可以通過Gemini應用和AI搜索界面立即使用
2025-11-19 08:11:05谷歌發(fā)布Gemini37月23日清晨,阿里開源了全新的通義千問AI編程大模型Qwen3-Coder。該模型在編程能力方面登頂全球開源模型陣營,并超越了GPT-4.1等閉源模型,比肩全球最強的編程模型Claude 4
2025-07-23 22:03:00阿里宣布開源全新AI編程模型在近日舉行的ColorOS 16發(fā)布會暨OPPO開發(fā)者大會上,OPPO軟件工程事業(yè)部總裁唐凱正式介紹了新一代操作系統(tǒng)ColorOS 16
2025-10-15 12:06:34全新ColorOS16發(fā)布當?shù)貢r間9月30日,OpenAI推出了一款全新社交媒體應用,這款應用基于升級版的AI視頻生成器Sora 2。用戶只需輸入文本提示即可生成帶音頻的高清短片,并能上傳視頻至虛擬場景中與他人互動
2025-10-01 10:41:23OpenAI發(fā)布視頻生成模型Sora2