当前位置:首页 > 科技资讯 > 正文

AI图像编辑新纪元:Nano Banana引领应用爆炸

我早已习惯AI生成各类图片,但未曾目睹如此精准的图像编辑与调整。

这是《窄播Weekly》第66期,本期聚焦的商业动态是:Google最新AI图像生成模型Nano Banana,或将为AI图像领域带来一场应用革命。

一年前,我将人物手中的玩具火车替换为玩具飞机,需精细标记并寻找干净图片,再告知AI进行替换。经过一番努力,飞机虽变形,人物手指却消失,效果仅勉强可用。

而今,同样任务交给Nano Banana,仅告知其「将人物手中玩具火车换成玩具飞机」,无需准备另一张图片,20余秒后新照片便呈现眼前。照片中仅替换了玩具火车,未对其他部分进行多余修改,人物手指完好无损。

此番体验变革令我回想起初用DeepSeek时的震撼——已知可与AI随意交流,却未料到其智慧如此超凡。同样地,我早已习惯AI生成图片,却未曾目睹如此精准的图像编辑与调整。

如同DeepSeek凭借深度思考展现AI应用前景,Nano Banana展现的确定性图像创作能力,也将促使大众更广泛地运用AI处理图像任务。

目前,社交媒体上已涌现大量使用Nano Banana制作的手办模型、OOTD、换装图片,更有用户结合视频生成大模型进行视频内容创作。这不仅是「吉卜力风格」滤镜的流行,更是高效、通用图像创作能力的普及。

AI图像编辑新纪元:Nano Banana引领应用爆炸 Nano Banana AI图像编辑 应用爆炸 多模态 第1张

该模型能力可支持更多产品创新。不仅Gemini,未来诸多产品都可能融入Nano Banana或类似模型。

但这也需要模型厂商如Nano Banana般从多模态视角,更全面地思考如何增强模型图像创作能力。

AI时代的美图秀秀:一种新能力

使用Nano Banana调整图像的感受,如同早期从PhotoShop转向美图秀秀。用PhotoShop需牢记操作步骤,新手每次修图都需查询教程。而美图秀秀仅需简单点击拖拽,即便是新手也能快速上手。

如今,Nano Banana让普通用户通过一句话就能精准调整与修改图片。这是图像创作领域的又一次革新。不同以往的是,从PhotoShop到美图秀秀是产品思路的转变,将固定操作简化为一次点击或拖拽;而Nano Banana带来的是一种能力——让AI具备理解、编辑图像的能力。

在Nano Banana团队介绍中,这种能力实现有两个关键点:

原生多模态架构。此架构让Nano Banana能同时理解并处理文本、图像等上下文信息,从中获取像素级信息以实现像素级精确编辑(Pixel Perfect Editing)。确保Nano Banana对图片的调整可精确至具体元素。

AI图像编辑新纪元:Nano Banana引领应用爆炸 Nano Banana AI图像编辑 应用爆炸 多模态 第2张

交错生成(Interleaved Generation)。在像素级精确编辑基础上,Nano Banana可将复杂提示词拆解为多个步骤逐步完成修改。团队认为这是一次范式变革,让模型以增量生成方式分步构建复杂图像,而非挑战其上限一次性生成最终答案。

某种程度上,这是通过模型定义实现更接近Agent的能力。DeepSeek推动AI广泛应用也是利用深度思考能力拆解提示词分步执行。Nano Banana逻辑同样如此通过更精确理解与细致任务拆分实现高度一致图像编辑。

在此基础上Nano Banana实现成本低、速度快。据Google介绍Nano Banana定价为30美元/百万token每张图片生成约需1290个token成本约0.039美元。

并且Nano Banana生成一张图片只需十几到几十秒时间。快速生成结合精确调整能力共同支撑用户迭代创作使其不断尝试调整接近理想目标。

出色能力催生更广泛应用

就我体验而言Nano Banana能轻松帮我给哪吒穿上豆豆鞋也能参考搜索到打斗镜头生成路飞与艾斯打斗场面。虽非所有结果都令人满意但不妨碍我认为Nano Banana可成为构建AI图像应用的基础能力或带来某些体验升级与广泛应用。

AI图像编辑新纪元:Nano Banana引领应用爆炸 Nano Banana AI图像编辑 应用爆炸 多模态 第3张

虚拟试衣是其一类应用Nano Banana提供能力可让用户看到自己尝试穿搭的更真实上身效果吸引更多人使用此功能。

<福布斯》报道认为Nano Banana保持角色一致的能力可提高创作者与工作室创作故事板、儿童读物与漫画的效率降低商品宣传物料制作成本拍一次产品图可生成不同场景宣传海报室内设计师可根据房间照片随时调整装修效果给用户更及时低成本服务。

AI图像编辑新纪元:Nano Banana引领应用爆炸 Nano Banana AI图像编辑 应用爆炸 多模态 第4张

Nano Banana发布进一步提高图生视频上限。创作者可根据Nano Banana更精准调整首尾帧让视频生成结果更接近预期然后将片段剪辑拼接成完整视频。目前更快被大众所见的是视频创作产品利用Nano Banana能力让用户调整照片生成效果更佳换脸视频。

这些应用探索基本将Nano Banana基础能力与某些领域隐性知识结合降低用户在特定图像需求上的使用门槛。虽然Google将集成Nano Banana到Gemini中成为通用助手的基础能力但通用助手并非万能有时无法提供特定行业隐性知识。

需更多应用帮助增加对行业隐性知识的理解。摩根士丹利分析认为美图真正价值在于提供基础AI模型无法企及的「最后一公里」解决方案。当然这种解决方案会随着模型能力提升变得越来越细分倾向于针对具体任务提供更极致服务。

做好Nano Banana是更综合的竞争

本质上Nano Banana团队不是在做一个图像生成模型而是在将多模态能力应用于图像创作领域。

团队认为Gemini与Google图像生成模型Imagen区别在于Gemini致力于融合多种模态实现AGI而Imagen专注于图像生成。如果用户追求高效生成高质量美丽图像Imagen是最佳选择;而若希望在图像生成基础上进行编辑获得更多创意构思甚至创造性结果Gemini是更优选择。

AI图像编辑新纪元:Nano Banana引领应用爆炸 Nano Banana AI图像编辑 应用爆炸 多模态 第5张

@Travis Davids

面向未来Nano Banana团队期待模型更具智能感(Smartness)与事实性(Factuality)。

智能感指当用户指令不清晰或理解现实不准确时Nano Banana能让结果与真实世界保持一致。虽偏离用户指示却能获得更好效果让用户觉得其聪明。

事实性指不仅能创作美丽图像还能生成准确无误图标、信息图与示意图甚至直接为用户生成PPT页面。这需要在图像元素及文字、数据上做到精准。

这两个目标实现均需依托Gemini世界知识对多模态上下文的理解。例如能理解要添加的玩具飞机是什么以及精神小伙穿搭风格特点等。

对Google而言Nano Banana成功在于搭建起理解与生成之间的协同。