在視頻生成模型稱霸多個榜單之后,谷歌終于將戰火引至圖像領域。當地時間8月26日,谷歌發布了其最新的圖像生成和編輯模型Gemini 2.5 Flash Image,并迅速登頂多個主流圖像排行榜,成為新晉性能冠軍。
第一財經記者實測后發現,確實如眾多網友所體驗的那樣,模型各方面表現堪稱優秀,無論是角色的一致性、提示詞的跟隨、物理邏輯的真實性還是畫面審美方面都保持了水準。但對中國用戶的一大限制在于不支持中文輸入。即使用戶使用英文提示,若生成內容涉及中文,效果仍會顯著下降。測試中還發現,模型偶爾會出現多肢體等結構錯誤。
盡管如此,Gemini 2.5 Flash Image 仍被廣泛認為是當前市場上最強的圖像編輯和生成模型之一。谷歌官方演示顯示,該模型已具備替代部分人工修圖的能力,可幫助設計師一鍵完成圖像修改與創意生成,也適用于電商產品圖的制作。更值得注意的是,其單張圖像生成成本不到3毛錢,極具性價比,有望大幅推進AI圖像生成的商業化進程。
登頂雙榜單
實際上,在正式發布之前,市場已經有一些風聲。上周一款名為“nano-banana”的模型出現在大模型競技場中,開始接受用戶的匿名體驗和打分,目前投票數超過250萬。如今謎底揭曉,“nano-banana”正是Gemini 2.5 Flash Image。
在大模型競技場LMArena的文生圖與圖像編輯兩個場景,谷歌的圖像模型均拿下全球第一,在圖像編輯榜單上模型表現尤為出色,獲得1362的高分,以171分的差距領先第二名flux-1-knotext-max。
知名AI基準測試機構Artificial Analysis同樣獲得了早期訪問權限,并在過去一周以“rex”的化名在競技場中進行了測試。目前谷歌的模型在圖像編輯方面排名第一,超過了OpenAI的GPT-4o和國內阿里的Qwen-Image-Edit,在文生圖方面則略遜于字節Seedream 3.0和GPT-4o,排名第三。
Artificial Analysis還做了一個對比測試,給出了一張圖,讓谷歌、阿里通義和OpenAI三家的模型生成新的照片:在自行車后座上加一名乘客,并將地點更改為內蒙古的草原。
從輸出結果看,千問的圖像模型未能準確進行指令跟隨,在畫面真實度上,谷歌的模型表現則比GPT-4o更為突出。
谷歌稱,Gemini 2.5 Flash Image的核心亮點是圖像編輯能力,這一模型可將多個圖像混合到一幅圖像中,保持高度的角色一致性,還能使用自然語言進行有針對性修改,并充分利用Gemini的世界知識來生成和編輯圖像。
一直以來,圖像生成中的一個根本挑戰是如何在多個提示和編輯中保持角色或物體的外觀。“我們知道,當你編輯自己或熟悉的人時,哪怕是細微的差別都會顯得刺眼 。”谷歌官方表示,“差一點但不完全一樣”的效果就是感覺不對,模型的最新更新專門針對這一點,讓朋友、家人,甚至寵物始終看起來像他們自己。
谷歌CEO桑達爾·皮查伊(Sundar Pichai)和谷歌DeepMind CEO戴密斯·哈薩比斯(DemisHassabis)在發布時親自下場帶貨。
皮查伊借助最新模型生成了家里愛犬沖浪、做大廚的照片,畫面質感相當不錯。哈薩比斯則給自己生成了一個肖像照,將照片背景做了修改,切換為古典風格,但是人物的容貌沒有出現改變。
從畫面來看,谷歌這一模型可做到在不同的姿勢、光線和環境中保持人物或角色的相似性,甚至可以將相同的角色應用到新的風格和表面上。
現在用戶使用Gemini App可以免費體驗,但面向開發者的版本,算下來每張生圖成本也不到3毛錢。Gemini 2.5 Flash Image的定價為30美元/100萬個輸出token,每張圖像為1290個輸出token,每張圖像價格約為0.039美元(約合人民幣0.28元),這遠低于OpenAI的0.19美元/張的價格。
實測表現:中文是短板,一致性出眾
根據官方的發文,Gemini 2.5 Flash Image除了角色一致性方面,在渲染文本方面也表現出色。模型可以準確生成包含清晰易讀且位置合理的文本的圖片,非常適合用于徽標、圖表和海報。
在商業化場景中,例如廣告制作方面,主體特點、主角容貌不變,文字不變形這些都非常重要。在這一基礎上,谷歌認為,他們的模型已經能適應產品模型和商業攝影,為電子商務、廣告或品牌宣傳制作清晰專業的商品照片。
具體模型在這些方面的表現如何?第一財經基于哈薩比斯的肖像照進行了測試。加上一張家里貓咪的照片,讓Gemini融合生成哈薩比斯抱著貓坐在沙發上的圖像,并且更換家居服。
從第一次輸出結果來看基本上找不出瑕疵,AI此前容易犯的錯包括手指變形、虛化的背景形態錯誤、人物容貌細微變化等等都沒有發生,甚至連哈薩比斯左手的手表細節都保持了一致。唯一不夠滿意的是,畫面雖然是高清圖,但分辨率并不高。
接下來,第一財經記者加大難度,讓貓坐在沙發上,而哈薩比斯手里拿一本漢語大詞典正在翻閱,沙發換成深綠色。
可以看到,第二次生成時,模型在涉及中文場景的畫面時開始出現錯誤,哈薩比斯拿著的并不是漢語大詞典,甚至很難對應上正確的中文字體,但顏色和形狀上保持了合理性。
第一財經記者進一步更改提示詞,讓模型發揮想象力,將貓換成主角,坐在沙發翻閱牛津詞典,并讓哈薩比斯在旁邊給貓按摩。
在這一步,模型開始出現明顯的錯誤,指令并沒有完全跟隨,甚至貓多出了一條腿。不過,確實如官方所說,在英文場景下,文字的渲染沒有出現差錯,哈薩比斯手中牛津詞典的書名拼寫完全正確。
綜上,該模型在面貌一致性、文本準確性方面表現優異,尤其擅長英文環境;而在中文理解與復雜構圖指令方面仍存在明顯缺陷。
在商業應用上,基于模型性能的提升,或許將重塑設計、廣告與電商行業。
官方表示,模型支持用自然語言進行針對性地變換和精準局部編輯。例如,可以模糊圖像背景、去除T恤上的污漬、從照片中移除整個人物、改變拍攝對象的姿勢、為黑白照片添加顏色。這很大程度上已經能替代圖像領域的王者Adobe的PS,可見的未來,修圖師的地位也岌岌可危。
在設計領域,一些圖形風格更改也可以一鍵完成了。谷歌提到,模型現在可以輕松地將其從一張圖像轉移到另一張圖像,同時保留前一個主題的形式和細節,這種一致性可用于專業設計場景。例如,模型能在不改變形狀和細節的前提下,完成紋理的更換。
在物理知識方面,模型表現也較為出色。根據谷歌的案例,給模型一個氣球飄向仙人掌的視覺圖像后,提示其想象生成下一個可能的情況。從畫面來看,模型能夠預判氣球爆炸后的物理特征。
在電商場景中,已有海外用戶嘗試用該模型生成商品展示圖。如將人物手中的涂抹區域替換為香奈兒手袋,效果逼真,幾乎看不出合成痕跡。
可以預見,隨著生成效果不斷優化與使用成本持續降低,Gemini 2.5 Flash Image 有望加速AI在電商、廣告、設計乃至專業攝影領域的影響和替代效應,修圖師與部分視覺設計師的工作內容,或將被重新定義。
幫企客致力于為您提供最新最全的財經資訊,想了解更多行業動態,歡迎關注本站。鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。