当前位置:首页 > 科技资讯 > 正文

谷歌Nano Banana模型:图像编辑领域的革命性突破

谷歌近期展现了强劲的崛起势头,推出了本年度或许最令人惊叹的文生图模型——Nano Banana,这一创新迅速吸引了全球目光。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第1张

谷歌在多模态人工智能技术上的长期坚持和深入耕耘,如今再次迎来了显著的成果,标志着AI视觉领域的重大进展。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第2张

自三天前以“Nano Banana”之名悄然亮相以来,相关讨论便迅速升温,其核心原因在于其卓越的性能表现,超出了许多人的预期。

这个模型前几天就在LMArena图片编辑模型排行榜上几乎以断代式优势领先其他竞争者,而昨天,谷歌官方正式宣布,Nano Banana正是源自Google DeepMind实验室推出的Gemini-2.5-Flash-Image-Preview技术。

Nano Banana现已一跃登上图像编辑排行榜的榜首位置,成为行业新标杆。

它不是期货产品,而是开箱即用的实用工具。无论是官方发布的演示素材,还是网友自行测试的案例,在图像一致性和功能多样性上都表现出了惊人的水准。

全球网络用户一致给予高度评价,纷纷称赞其比其他任何图像编辑模型都要出色。

不仅一致性强,处理速度还极快,相比GPT-Image等模型能实现更精准的编辑控制,同时,更具备了完整大型语言模型的理解能力,而非普通CLIP规模模型的认知水平。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第3张

访问地址:ai.studio/banana,用户可以轻松体验这一强大功能。

这个模型给人最直观的感受是,它允许用户通过语音或打字就能轻松修改和拼接图片,那种初见ChatGPT和Sora的“魔法感”再次回归,令人兴奋。

过往AI生图常被诟病于每次编辑都像随机掷骰子,细节容易失真、角色特征易变。而谷歌对Nano Banana的主要定位就是保持主体的高度一致性。

谷歌表示,无论是更换背景、调整视角或改变色调,画面中的人物与物体都能稳定保持原貌不走形,确保编辑过程的可靠性。

另一方面,它还是具备推理能力的图像模型。Nano Banana在提示词精准度方面达到了新高度,在听懂自然语言、理解复杂内容方面表现出色。

它不仅能够理解图像内容,还能自主处理、添加文字元素,实现更智能的编辑。

这让它得以同时支持多轮次编辑与多图叙事能力,用户可以持续修改生成的图片,但人物特征保持稳定,甚至可以维持原来的氛围感。诸如“房间布置逐步变化”、“漫画连续分镜”、“多角色合成互动”等复杂功能都能轻松实现,绘制带文字的技术插图、解答几何题目也能做到。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第4张

一句话就能让模型把图片切换视角,上图是原始图片,下图是生成的俯视视角图片,展示了强大的空间转换能力。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第5张

只需一件衣服、一个人物和一句话,衣服就能立刻穿到人身上,实现了无缝的虚拟试衣效果。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第6张

一句话指令,就能将拳王阿里的形象瞬间转变为辛普森风格,展示了强大的风格迁移能力。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第7张

将劈柴从印度老家顺移到谷歌办公室(尽管人物出现了些许变化),但整体场景转换自然。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第8张

只需两张人物照片,模型就能立即生成他们出演《碟中谍》和琼瑶剧的剧照,展现了创意合成潜力。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第9张

仅去掉小细节的局部编辑也很稳定,其他内容几乎没有变化,保证了编辑的精确性。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第10张

在人物一致性方面,网友测试表示,让人物转一圈再转回来,人看起来的变化不大,一致性确实非常出色。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第11张

在网友喜闻乐见的动漫领域,表现也同样喜人,给出角色和手绘图示意图,就能精确控制多个人物的姿态。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第12张

生成角色三视图后,漫画也可以稳定生成,确保了角色在不同场景中的一致性。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第13张

多次编辑工作更是让Nano Banana的成图更稳定,提升了用户体验。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第14张

网友测评后表示,连续编辑方面虽然尚未达到完美,会稍微变形一部分,但一致性已经相当可观,优于多数竞品。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第15张

多种风格的消费漫画信手拈来,展示了模型在创意内容生成上的灵活性。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第16张

网友实测反馈也很不错,除了人物五官有非常微小的变化,一致性真的非常强。如果使用的是普通人的照片,不仔细对比,很难看出面部细节的变化。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第17张

不过对于大家都很熟悉的名人,可能还是能让人看出面部不一致的地方,这表明模型在特定细节上仍有优化空间。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第18张

插画变手办更是近期网上一大测试热点,说到底还是因为Nano Banana的成图效果确实AI味儿少,看着真实。从平面到现实世界,却没有太大违和感,质感和特征都相当不错,网友们争相生成传播。

而绘制科学插图,制作用于解释的插图等包含内容生成的方面,网友也评价很高。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第19张

在几秒钟内完成科学插图的绘制,高保真文本渲染+语言理解+世界知识,Nano Banana确实是独一档的。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第20张

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第21张

不过,也有不少网友表示,Nano Banana的过滤器有点敏感,有的正常请求也会被拒绝,这可能是内容安全策略的一部分。

除了内容本身,Nano Banana的运行速度也相当可观。谷歌表示,在同类模型通常需要10-15秒处理一张图片时,Gemini 2.5 Flash基本能做到1-2秒完成,大幅提升了效率。

Nano Banana配合谷歌的Veo3的工作流更是能很快生成相当质量的视频,网上已经出现了不少工作流,Nano Banana出图导入Veo3,几秒钟的短视频或者长视频都能够胜任。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第22张

而价格上,有网友根据谷歌放出的使用费率做了个简单的估算,生成或者修改一张图的成本在3毛钱左右,性价比突出。

谷歌Nano Banana模型:图像编辑领域的革命性突破 文生图模型 图像一致性 多模态AI 快速编辑 第23张

网友表示,这是真的能替代美工的视觉工具,为创意工作带来了革命性变化。

谷歌这次真是盯上了视觉打工人的饭碗了,通过AI技术赋能,可能重塑整个行业的工作方式。