说到底，谷歌旗下最强图像模型来了，P图师要消失了？

发表评论

A+

所属分类：科技

摘要

谷歌称，Gemini 2.5 Flash Image的核心亮点是图像编辑能力，这一模型可将多个图像混合到一幅图像中，保持高度的角色一致性，还能使用自然语言进行有针对性修改，并充分利用Gemini的世界知识来…” />

可能你也遇到过，

在视频生成模型称霸多个榜单之后，谷歌终于将战火引至图像领域。当地时间8月26日，谷歌发布了其最新的图像生成和编辑模型Gemini 2.5 Flash Image，并迅速登顶多个主流图像排行榜，成为新晋性能冠军。

请记住，

第一财经记者实测后发现，确实如众多网友所体验的那样，模型各方面表现堪称优秀，无论是角色的一致性、提示词的跟随、物理逻辑的真实性还是画面审美方面都保持了水准。但对中国客户的一大限制在于不容许中文输入。即利客户利用英文提示，若生成资料涉及中文，效果仍会显著下降。测试中还发现，模型偶尔会出现多肢体等结构错误。

必须指出的是，

尽管如此，Gemini 2.5 Flash Image 仍被广泛认为是当前市场上最强的图像编辑和生成模型之一。谷歌官方演示显示，该模型已具备替代部分人工修图的能力，可帮助设计师一键完成图像修改与创意生成，也适用于电商产品图的制作。更值得注意的是，其单张图像生成成本不到3毛钱，极具性价比，有望大幅推进AI图像生成的商业化进程。

很多人不知道，

登顶双榜单

反过来看，

实际上，在正式发布之前，市场已经有一些风声。上周一款名为“nano-banana”的模型出现在大模型竞技场中，进行接受客户的匿名体验和打分，目前投票数超过250万。如今谜底揭晓，“nano-banana”正是Gemini 2.5 Flash Image。

尤其值得一提的是，

在大模型竞技场LMArena的文生图与图像编辑两个场景，谷歌的图像模型均拿下全球第一，在图像编辑榜单上模型表现尤为出色，获得1362的高分，以171分的差距领先第二名flux-1-knotext-max。

总的来说，

知名AI基准测试机构Artificial Analysis同样获得了早期访问权限，并在过去一周以“rex”的化名在竞技场中进行了测试。目前谷歌的模型在图像编辑方面排名第一，超过了OpenAI的GPT-4o和国内阿里的Qwen-Image-Edit，在文生图方面则略逊于字节Seedream 3.0和GPT-4o，排名第三。

很多人不知道，

Artificial Analysis还做了一个对比测试，给出了一张图，让谷歌、阿里通义和OpenAI三家的模型生成新的照片：在自行车后座上加一名乘客，并将地点更改为内蒙古的草原。

展开全文

尽管如此，

从输出结果看，千问的图像模型未能准确进行指令跟随，在画面真实度上，谷歌的模型表现则比GPT-4o更为突出。

谷歌称，Gemini 2.5 Flash Image的核心亮点是图像编辑能力，这一模型可将多个图像混合到一幅图像中，保持高度的角色一致性，还能利用自然语言进行有针对性修改，并充分利用Gemini的世界知识来生成和编辑图像。

一直以来，图像生成中的一个根本挑战是如何在多个提示和编辑中保持角色或物体的外观。“本平台知道，当朋友 XM官网 203;们编辑自己或熟悉的人时，哪怕是细微的差别都会显得刺眼。”谷歌官方表示，“差一点但不完全一样”的效果就是感觉不对，模型的最新更新专门针对这一点，让朋友、家人，甚至宠物始终看起来像他们自己。

谷歌CEO桑达尔·皮查伊（Sundar Pichai）和谷歌DeepMind CEO戴密斯·哈萨比斯（DemisHassabis）在发布时亲自下场带货。

简要回顾一下，

皮查伊借助最新模型生成了家里爱犬冲浪、做大厨的照片，画面质感相当不错。哈萨比斯则给自己生成了一个肖像照，将照片背景做了修改，切换为古典风格，但是人物的容貌没有出现改变。

XM外汇财经新闻：

从画面来看，谷歌这一模型可做到在不同的姿势、光线和环境中保持人物或角色的相似性，甚至能够将相同的角色应用到新的风格和表面上。

现在客户利用Gemini App能够免费体验，但面向开发者的版本，算下来每张生图成本也不到3毛钱。Gemini 2.5 Flash Image的定价为30美元/100万个输出token，每张图像为1290个输出token，每张图像价格约为0.039美元（约合人民币0.28元），这远低于OpenAI的0.19美元/张的价格。

实测表现：中文是短板，一致性出众