当前位置:首页 > 科技资讯 > 正文

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命

近日,备受瞩目的图像生成与编辑模型nano banana终于揭开了神秘面纱。不出所料,它由谷歌推出,并获得了官方命名:gemini-2.5-flash-image-preview

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第1张

据官方介绍,这一模型拥有“领先的图像生成与编辑能力、出色的角色一致性以及极快的处理速度”。

从名称推断,谷歌很可能还开发了非flash版本的gemini-2.5-image模型,预计性能更强但速度稍慢。

目前,gemini-2.5-flash-image-preview已在Google AI Studio和Gemini API中开放预览,供用户免费体验。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第2张

该模型支持32k上下文长度,并提供温度调节(用于控制创意程度)等高级设置选项。

然而,目前该模型尚不支持中文输入进行图像生成和编辑,仅能回复文本内容。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第3张

此外,在Gemini平台中,用户只需选择2.5 Flash模型并输入合适提示词,即可调用该功能。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第4张

价格方面,gemini-2.5-flash-image-preview的文本输入/输出费用为0.3/2.5美元,图像输入/输出费用为0.3/30美元,知识截止日期为2025年6月。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第5张

粗略估算,该模型生成单张图像的成本约为0.039美元(约0.28元人民币),显著低于OpenAI的图像生成服务定价。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第6张

在功能层面,谷歌特别强调该模型在跨图像中维持人物形象一致性的能力。

“我们深知,当编辑自己或熟悉的人物时,细微差异都会显得突兀——‘相似但不完全一致’的效果总让人感到不适。因此,本次更新专注于确保你的朋友、家人甚至宠物在任何新场景下,无论是尝试复古发型还是趣味装扮,都能保持原本样貌。”

用户只需上传一张照片并指定修改要求,即可添加个性化风格。该模型能将用户与宠物合成到同一画面、更换房间背景,或虚拟旅行至任何地点,同时确保“本人特征不变”。编辑后的照片还可再次上传,转化为趣味短视频。

谷歌分享了以下应用示例:

更换服饰或背景:上传人物或宠物照片,模型可在新场景中保持外貌一致。用户可尝试不同服装、职业甚至历史年代造型,但始终保留核心特征。

谷歌还专门开发了一个演示应用,展示用户在不同年代的形象变化。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第7张

地址:https://aistudio.google.com/apps/bundled/past_forward

图像合成:支持上传多张照片融合为新场景。例如,将用户与狗狗的照片合成在篮球场上,生成完美合影。

多轮编辑:支持对生成图像进行连续修改。例如,从空房间开始,逐步添加墙壁颜色、书架、家具等,模型仅调整指定部分,保留其他内容。

风格混合:将一张图像的风格应用到另一图像的物体上。例如,将花瓣质感应用于雨靴,或用蝴蝶翅膀图案设计连衣裙。

内置世界知识:模型集成Gemini的世界知识,拓展了应用场景。谷歌在AI Studio中构建了一个模板应用,可将简单绘画转化为交互式教育工具。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第8张

地址:https://aistudio.google.com/apps/bundled/codrawing

此外,所有在Gemini中生成或编辑的图像都会添加可见水印及谷歌隐形SynthID数字水印,以明确标识为AI生成内容。

模型上线后迅速引发测试热潮,谷歌首席科学家Jeff Dean亲自参与,将自己编辑为足球运动员卡牌形象。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第9张

诺奖得主、DeepMind创始人兼CEO Demis Hassabis也生成了一张个人形象照。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第10张

网友纷纷分享创意成果:

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第11张

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第12张

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第13张

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第14张

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第15张

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第16张

性能排名

gemini-2.5-flash-image-preview上线后,各大榜单陆续公布其表现。

在Artificial Analysis的图像编辑排行榜中,该模型以1212 ELO分数位居榜首。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第17张

在文生图榜单上,字节跳动的即梦3.0和OpenAI的GPT-4o仍保持微弱优势。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第18张

但在投票数更高的LM Arena榜单中,gemini-2.5-flash-image-preview已在两项任务中均位列第一。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第19张

详细指标显示,该模型在角色一致性、创意、图表绘制、物体与环境呈现等方面优势突出,而GPT-4o在风格化方面暂时领先。

谷歌Gemini 2.5 Flash Image Preview正式发布:图像生成与编辑的新革命 Gemini Preview  图像生成 图像编辑 角色一致性 第20张

你是否已经体验过nano banana或gemini-2.5-flash-image-preview?感受如何?

参考资料

https://x.com/googleaistudio/status/1960344388560904213

https://blog.google/products/gemini/updated-image-editing-model/

https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/