当前位置:首页 > 科技资讯 > 正文

Nano Banana:AI生成内容的飞跃与未来

Nano Banana的玩法持续升级,涵盖桌面手办、多元素拼图以及连续性故事生成等。

这款模型引发了全网的创作热潮,朋友圈中布满了各种真人手办。

在享受生成效果的同时,记得标注“图片内容由AI生成”,因为《人工智能生成内容标识办法》今天起开始实施。

在图像生成方面,Google的Imagen 4文生图模型已经相当成熟,那么为何Nano Banana最终还是由Google引领呢?

起初,以神秘代号Nano Banana出现在大模型竞技场时,就有人猜测是Google的模型。

这并非偶然或猜测,Nano Banana集合了Google多个团队的项目成果。首先是Gemini强大的世界知识与指令遵循能力,其次是Google内部顶尖的Imagen文生图模型,提供极致的图像美学与自然度。

我们整理了Nano Banana核心团队的播客采访,探讨其现在、过去和未来。

Nano Banana:AI生成内容的飞跃与未来 Banana AI生成内容 图像生成 交错生成 第1张

精简版:

1.Nano Banana实现了图像生成和编辑功能的巨大飞跃。它快速生成,理解模糊、口语化指令及需要世界知识的指令,多轮编辑中保持角色和场景一致性,效果更自然。

2. 通过提升文本渲染效果,能同时提升生成图像的效果。因为模型能生成有结构的文字时,也能更好地学习图像里的结构。

3. Nano Banana的关键在于“原生多模态”能力,尤其是“交错式生成”。这让模型可以分步骤处理复杂指令,并联系上下文进行创作。

4. 高质量“文本生成图像”首选Imagen模型;而多轮编辑、创意探索等复杂多模态工作流,Nano Banana是更合适的创意伙伴

5. Nano Banana未来追求“聪明”和“事实准确性”,希望打造能理解用户深层意图的模型,并准确生成图表等工作内容。

下面是播客正文,编译略有调整。

大家好,欢迎回到《Release Notes》。我是来自Google DeepMind团队的Logan Kilpatrick。今天跟我一起的是Kaushik、Robert、Nicole和Mustafa,他们负责Gemini原生图像生成模型的研究与产品。我对此次分享超级兴奋。Nicole,要不要先介绍一下发布的好消息?

Nano Banana:AI生成内容的飞跃与未来 Banana AI生成内容 图像生成 交错生成 第2张

从左到右依次为:Kaushik Shivakumar,Robert Riachi,Nicole Brichtova,Mostafa Dehghani,和Logan Kilpatrick

Nicole:我们正在为Gemini以及2.5 Flash发布图像生成和编辑功能的更新。这是一次巨大的质量飞跃,模型已达到业界领先水平。我们对生成和编辑能力都感到非常激动。我直接给你们展示一下模型的效果吧。

Logan:我之前玩过一次,但没有你们玩得多,所以很想看看更多示例。

Nicole:好,我来给你拍一张照片吧。从一个简单的例子开始:比如“拉远镜头,给他穿上一套巨大的香蕉服装,但保持脸部清晰”。生成需要几秒钟,但还是很快的。

Nano Banana:AI生成内容的飞跃与未来 Banana AI生成内容 图像生成 交错生成 第3张

Logan:这是我最喜欢的功能之一。我觉得这种编辑速度让模型非常有趣。能把图放大点吗?全屏看看?

Nicole:点一下就好了。这就是Logan,还是你的脸。令人惊叹的是,模型能保持是你本人,又让你穿上了巨大的服装,还生成了你在城市中行走的背景。

Logan:太有意思了!这背景是芝加哥,和那条街真的很像。

Nicole:这就是模型的世界知识在发挥作用。那我们继续试试“make it nano”。

Logan:让它变nano是什么意思?

Nicole:我们最初在测试时给它起了代号叫Nano Banana。现在它会把你变成一个可爱的迷你版角色,穿着香蕉服。

Nano Banana:AI生成内容的飞跃与未来 Banana AI生成内容 图像生成 交错生成 第4张

Logan:哈哈,我太喜欢了。

Nicole:最酷的地方在于,你刚才的提示其实很模糊,但模型足够有创造力来解释它,并生成一个既符合提示又在上下文里合理的场景。

这非常令人兴奋,因为这是我们第一次看到模型能在多次编辑中保持场景一致,同时用户还能用非常自然的语言与模型互动。

Logan:我太喜欢了。那么它在文本渲染方面表现如何?这是我最关心的用例之一。

Nicole:要不要我来演示一下?你给我个提示。

Logan:那就“Gemini Nano”吧。我最常用的场景是做带文字的海报或公告。

Nicole:这是一个很简单的文本,字数少、词也简单,所以效果很好。我们确实在文本渲染上还有一些不足,但团队正在努力改进。

文本渲染是反映模型表现的有效信号

Logan:还有其他例子或这次发布的指标故事吗?过去我们主要依赖人工偏好打分。你们是怎么考虑这件事的?

Robert:确实,在多模态模型中评估非常困难。我们也在寻找新的指标。其中文本渲染就是一个很有趣的例子。

Nano Banana:AI生成内容的飞跃与未来 Banana AI生成内容 图像生成 交错生成 第5张

图像理解和图像生成密切相关

Logan:我很好奇模型自身的图像生成能力和图像理解能力之间是如何相互作用的。我们之前和Ani的团队合作过,他们在图像理解方面达到了业界最先进的水平。

“原生多模态”能力

Mostafa:基本上我们的目标就是希望实现原生的图像理解、原生的多模态理解与生成能力。让模型同时学会处理不同模态的任务,并在这些不同的能力之间产生“正迁移”。

“交错式生成”

“原生图像生成”模型的特性

“交错式生成”的魔力

“逐步推理”测试

“Imagen”与“Nano Banana”的关系

“用户反馈”的重要性