谷歌推最強圖像模型 登頂雙榜單!谷歌在圖像生成和編輯領域推出了最新的模型Gemini 2.5 Flash Image,該模型迅速登頂多個主流圖像排行榜,成為新的性能冠軍。實測結果顯示,模型在角色一致性、提示詞跟隨、物理邏輯的真實性和畫面審美方面表現(xiàn)出色。然而,對于中國用戶來說,該模型不支持中文輸入,即使使用英文提示,涉及中文內(nèi)容時效果也會顯著下降。此外,模型偶爾會出現(xiàn)多肢體等結構錯誤。
盡管存在一些限制,Gemini 2.5 Flash Image仍被認為是當前市場上最強的圖像編輯和生成模型之一。谷歌官方演示顯示,該模型已具備替代部分人工修圖的能力,可幫助設計師一鍵完成圖像修改與創(chuàng)意生成,適用于電商產(chǎn)品圖的制作。單張圖像生成成本不到3毛錢,極具性價比,有望大幅推進AI圖像生成的商業(yè)化進程。
在正式發(fā)布之前,市場已經(jīng)有一些風聲。上周一款名為“nano-banana”的模型出現(xiàn)在大模型競技場中,接受用戶的匿名體驗和打分,投票數(shù)超過250萬。如今謎底揭曉,“nano-banana”正是Gemini 2.5 Flash Image。在LMArena的文生圖與圖像編輯兩個場景中,谷歌的圖像模型均拿下全球第一,在圖像編輯榜單上表現(xiàn)尤為出色,獲得1362的高分,領先第二名flux-1-knotext-max 171分。
知名AI基準測試機構Artificial Analysis也獲得了早期訪問權限,并在過去一周以“rex”的化名進行了測試。目前谷歌的模型在圖像編輯方面排名第一,超過了OpenAI的GPT-4o和國內(nèi)阿里的Qwen-Image-Edit,在文生圖方面則略遜于字節(jié)Seedream 3.0和GPT-4o,排名第三。
Artificial Analysis還做了一個對比測試,讓谷歌、阿里通義和OpenAI三家的模型生成新的照片:在自行車后座上加一名乘客,并將地點更改為內(nèi)蒙古的草原。從輸出結果看,千問的圖像模型未能準確進行指令跟隨,在畫面真實度上,谷歌的模型表現(xiàn)比GPT-4o更為突出。
當?shù)貢r間8月26日,谷歌推出了最新的圖像生成與編輯模型Gemini 2.5 Flash Image,代號“納米香蕉”
2025-08-28 09:06:12谷歌旗下最強圖像模型來了谷歌DeepMind團隊于5月27日宣布推出SignGemma,這是其迄今為止最強大的手語翻譯模型,能夠將手語轉化為口語文本。該開源模型計劃在今年晚些時候加入Gemma模型家族
2025-05-31 23:30:49谷歌DeepMind最強手語翻譯模型登場5月21日凌晨,谷歌在全球開發(fā)者大會“I/O 2025”上發(fā)布了AI全家桶——Google AI Ultra
2025-05-21 09:22:32Google發(fā)布最強AI全家桶