北京時(shí)間2月27日深夜,谷歌在沒有任何預(yù)熱、沒有發(fā)布會(huì)的情況下,將一個(gè)新的生圖模型悄悄塞進(jìn)了Gemini平臺(tái)——Nano Banana 2。上線方式也很低調(diào):一邊在官方博客和文檔里更新說明,一邊在X(原Twitter)上發(fā)布幾張對(duì)比圖和基準(zhǔn)測(cè)試成績(jī),讓開發(fā)者自己“拆箱”。
最近使用過Gemini圖像生成的用戶可能已經(jīng)注意到一個(gè)細(xì)節(jié):進(jìn)度條旁邊偶爾會(huì)閃過一行“正在加載Nano Banana 2”。這個(gè)名字聽起來有點(diǎn)戲謔的模型,正在把過去一年多積累的Pro級(jí)能力,批量下放到Flash級(jí)的速度中。
Nano Banana 2的官方代號(hào)是Gemini 3.1 Flash Image,底層架構(gòu)從上一代的Gemini 2.5 Flash升級(jí)到了3.1。用官方的話說,它的定位是:用Flash的速度,跑出Pro的質(zhì)量。在Gemini產(chǎn)品矩陣?yán)?,它正逐步取代舊版Nano Banana,成為默認(rèn)的圖像生成模型,而Nano Banana Pro則退守到對(duì)事實(shí)準(zhǔn)確性要求極高的專業(yè)場(chǎng)景。
如果只看分辨率和參數(shù),升級(jí)似乎不算夸張:輸出從2K提升到4K,支持從512px到4K的多種分辨率和寬高比,包括4:1、1:4、8:1、1:8這樣的超寬/超畫幅。真正讓開發(fā)者興奮的是,它把過去Pro版本獨(dú)占的能力“拉平”給了Flash用戶:更強(qiáng)的世界知識(shí)、更精準(zhǔn)的文本渲染、更可控的多圖一致性,以及原本Pro才有的推理與指令遵循能力。
谷歌給出的示例顯示,Nano Banana 2可以基于“水循環(huán)”這樣的抽象概念,直接生成信息圖級(jí)別的平鋪畫面,而不是簡(jiǎn)單畫一張“好看的水滴”。模型背后接入了Gemini的實(shí)時(shí)搜索和圖像檢索,能根據(jù)地理位置、天氣數(shù)據(jù)、文化符號(hào)來校準(zhǔn)畫面細(xì)節(jié),比如倫敦雨天時(shí),窗外的街景、雨滴在玻璃上的折射,都更符合當(dāng)?shù)氐墓庥昂徒ㄖ卣鳌?/p>
換言之,它不再是“照著風(fēng)格畫畫”,而是先理解世界,再動(dòng)筆。
更重要的是,它終于把文字這件事“搞對(duì)了”。很長(zhǎng)一段時(shí)間里,AI生圖最尷尬的不是畫得不好,而是畫上的字寫得亂七八糟:中文亂碼、英文拼寫錯(cuò)誤、排版毫無邏輯,導(dǎo)致生成物幾乎無法直接用于商業(yè)設(shè)計(jì)。Nano Banana 2把文本渲染當(dāng)作重點(diǎn)升級(jí)方向,官方和多方實(shí)測(cè)都提到,中英日等多語言混排基本穩(wěn)定,亂碼明顯減少,已經(jīng)可以可靠地生成漫畫對(duì)白、海報(bào)文案和UI標(biāo)注。
在一次測(cè)試中,當(dāng)提示詞要求生成一只戴著京劇頭飾的大熊貓,在茶館里用毛筆寫“生成式AI”時(shí),Nano Banana 2不僅準(zhǔn)確還原了熊貓毛發(fā)、頭飾珠翠的質(zhì)感,還讓毛筆字整體流暢,只在“式”字的細(xì)節(jié)上略有不規(guī)范——這在過去已經(jīng)是“可用級(jí)”的表現(xiàn)。
另一個(gè)被頻繁提起的進(jìn)步,是“時(shí)鐘難題”。早期AI生圖經(jīng)常畫不出可讀的時(shí)鐘,指針位置、刻度邏輯一團(tuán)糟。Nano Banana 2在單獨(dú)生成時(shí)鐘時(shí)已經(jīng)能做到指針與時(shí)間對(duì)應(yīng)準(zhǔn)確,但當(dāng)模型同時(shí)面對(duì)“時(shí)鐘+滿杯紅酒”這樣的多物體、多物理約束場(chǎng)景時(shí),仍然會(huì)把時(shí)針和分針搞反——這說明AI對(duì)復(fù)雜物理世界的理解仍有“盲區(qū)”,但至少已經(jīng)從“完全不會(huì)”走到了“偶爾翻車”。
對(duì)企業(yè)來說,比“畫得多好”更重要的是“畫得多快、多便宜”。在谷歌AI Studio的定價(jià)里,Nano Banana 2的計(jì)價(jià)單位是像素:1000像素圖像每張約0.0672美元,2000像素約0.101美元,4K圖像約0.151美元。對(duì)比Nano Banana Pro(2K圖像0.134美元/張,4K圖像0.24美元/張),Nano Banana 2在4K分辨率下價(jià)格直降約37%,而推理速度接近翻倍。
換算成更直觀的說法:用接近一半的錢,拿到接近甚至更好的畫質(zhì),而且生成時(shí)間從“去泡杯咖啡”縮短到“喝口水就好”。有中國(guó)網(wǎng)友在測(cè)試后感慨:“Nano Banana 2出來了,產(chǎn)圖真的是又快又好,不到一分鐘就能產(chǎn)4K圖,比Nano Banana Pro效果好、快、便宜?!?/p>
如果只看這些參數(shù),Nano Banana 2像是一次常規(guī)的“升級(jí)換代”。但從更高視角來看,谷歌正在借它做一件更重要的事:把AI生圖從“創(chuàng)意玩具”變成“工業(yè)生產(chǎn)線”。
過去兩年,圖像生成模型已經(jīng)證明了“能畫出驚艷作品”的能力,但真正進(jìn)入企業(yè)生產(chǎn)流程時(shí),卻頻頻在文字亂碼、尺寸受限、成本失控等問題上“翻車”,導(dǎo)致很多團(tuán)隊(duì)只把它當(dāng)作創(chuàng)意草稿工具,最終產(chǎn)出仍依賴人工精修。
Nano Banana 2的邏輯是,把圖像生成從“不可控的靈感爆發(fā)”變成“可預(yù)測(cè)的工業(yè)化輸出”。它通過三件事來實(shí)現(xiàn):把世界知識(shí)“注入”像素,解決文字和排版頑疾,提供可控的多圖一致性。谷歌展示了三款示例應(yīng)用:“靠窗座位”根據(jù)實(shí)時(shí)天氣和地理位置生成窗景;“全球廣告本地化器”一鍵把廣告翻譯成多語言版本;“寵物護(hù)照”讓同一只寵物在世界各地地標(biāo)前保持形象不變。
這些應(yīng)用共同指向一個(gè)方向:AI生圖不再是“畫一張好看的圖”,而是“在一個(gè)可控的流程里,批量生成符合業(yè)務(wù)邏輯的視覺內(nèi)容”。
對(duì)行業(yè)來說,Nano Banana 2的出現(xiàn)意味著AI生圖競(jìng)賽已經(jīng)從“能不能畫”進(jìn)入“畫得多快、多準(zhǔn)、多便宜”的階段。在國(guó)內(nèi),字節(jié)Seedream 5.0、阿里Qwen-Image-2.0等模型已經(jīng)在基準(zhǔn)測(cè)試和實(shí)測(cè)反饋中表現(xiàn)出極強(qiáng)的競(jìng)爭(zhēng)力;在國(guó)際上,GPT-Image 1.5、Grok Imagine系列以及Seedream 5.0 Lite等模型也在持續(xù)迭代。谷歌選擇在此時(shí)把“Pro級(jí)能力 + Flash級(jí)速度”打包成Nano Banana 2,并通過全線產(chǎn)品矩陣推送,顯然是想在規(guī)?;瘧?yīng)用上拉開差距。
從GenAI-Bench等公開基準(zhǔn)測(cè)試來看,Nano Banana 2在“信息圖表準(zhǔn)確性”“指令遵循度”“事實(shí)性”等指標(biāo)上,已經(jīng)顯著領(lǐng)先于部分主流競(jìng)品。這種領(lǐng)先不只是畫質(zhì)的,而是“能不能拿來干正事”的領(lǐng)先。
對(duì)普通用戶來說,如果之前被Nano Banana Pro的等待時(shí)間勸退,Nano Banana 2是一個(gè)值得重新嘗試的節(jié)點(diǎn);對(duì)企業(yè)用戶來說,它可能意味著從“試點(diǎn)玩玩”到“真正納入生產(chǎn)流水線”的拐點(diǎn)。
從“會(huì)畫畫”到“懂世界”,再到“能干活”,AI生圖正在完成一次從藝術(shù)工具到基礎(chǔ)設(shè)施的蛻變。而Nano Banana 2正是這場(chǎng)蛻變中的一個(gè)清晰路標(biāo)。
谷歌今日推出了全新圖像生成與編輯模型Nano Banana Pro (Gemini 3 Pro Image)
2025-11-21 08:10:45谷歌發(fā)布新一代圖像生成模型