当前位置:首页 > 科技资讯 > 正文

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元

谷歌在AI领域的攻势持续加强,继Gemini 3 Pro后,今日推出的Nano Banana Pro再次将目光投向图像生成,引发设计行业震动。

如果说前几天的Gemini 3 Pro预览版将镰刀伸向了前端开发领域,那么今天发布的新模型则直接瞄准了设计行业。初级设计师的饭碗,恐怕真的要端不稳了。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第1张

核心功能如下:

分辨率支持:最高可输出4K分辨率图像,细节更丰富

多轮编辑:支持对话式、多轮次的图像编辑工作流,让创作如聊天般自然

多图像合成:最多可将14张输入图像组合为1张输出图像,实现复杂场景融合

搜索增强:集成Google搜索能力,提供更精确、最新的知识支持,让生成内容有据可依

不再“瞎猜”,Nano Banana Pro终于学会先思考再画画

Nano Banana的招牌能力是角色一致性强、对话编辑方式,而Nano Banana Pro的核心进化在于它把Gemini 3的深度思考能力完整接进了图像生成流程。这意味着模型在生成图像前会进行逻辑推演和物理模拟,而不是仅仅依赖视觉模式“胡猜”。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第2张

它生成一张图之前,会先做一轮物理模拟和逻辑推演,而不只是凭视觉模式「胡猜」。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第3张

提示词:请绘制一张四宫格图片,四张图依次表现同一位戴着斗笠的年轻男子分别发音「我」「上」「早」「八」,人物外貌保持一致,口型准确对应每个字的发音,整体风格统一,16:9,4K

跨模态理解也在Nano Banana Pro身上展现得更为彻底。凭借Gemini 3增强的多语言推理能力,你可以直接生成多种语言的文字,或者一键本地化、翻译你的内容。

朋友丢来一页漫画,让模型给漫画上色并把气泡里的英文翻成中文。Nano Banana Pro上色干净,光影自然,文字识别准确,英文排版也和气泡形状严丝合缝,整个过程从识别到翻译再到重排一气呵成,表现得就像在真正「理解」这张图。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第4张

提示词:将图片上的文字翻译为中文,并上色,其他不变

又或者,设计师过去需要反复调整的多语言漫画、国际化海报以及宣传物料,现在可以直接让AI一步到位。比如让模型将英文海报中的英文翻译成中文。这种从识别、翻译到设计的连贯处理方式,正是原生多模态架构最具威力的一面。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第5张

而在文字生成能力上,经实测,Nano Banana Pro尽管偶尔需要抽卡,但整体表现出色。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第6张

提示词: 生成两张竖版的微信群聊天界面截图,群成员正在讨论Nano Banana Pro的发布。

不知道封面有没有骗到你?🤯

无论是一句短标语还是一整段文字,都能清晰可读,甚至支持多种纹理、字体与书法风格的精细排版。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第7张

提示词:仿古籍线描插图风,关羽坐于油灯旁,身披宽袖战袍,神态专注沉稳。桌案上摆着《春秋》竹简、鎏金小刀、毛笔等器物,以纤细线条勾画,保留古印刷风格。背景仅以几笔勾勒墙角、屏风与兵器架,简洁却富古雅气息。色彩以浅赭、灰墨、淡青为主,呈现古书插画的文化韵味与历史感,4:3。

64k的输入Token上限意味着它能理解极长的文本提示词。无论是详细的分镜脚本,还是复杂的多语言排版需求,都能很好理解。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第8张

提示词:生成一幅4K古画,画上写着:明月几时有?把酒问青天。不知天上宫阙,今夕是何年。我欲乘风归去,又恐琼楼玉宇,高处不胜寒。起舞弄清影,何似在人间。转朱阁,低绮户,照无眠。不应有恨,何事长向别时圆?人有悲欢离合,月有阴晴圆缺,此事古难全。但愿人长久,千里共婵娟。

针对前代分辨率偏低的老问题,Nano Banana Pro把画质一步拉到4K,还允许自由设定更多长宽比。电影海报、宽屏壁纸、纵向分镜,统统能直接生成。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第9张

Nano Banana Pro还支持最多14张输入图像的组合编辑,同时保持最多5个角色的外貌一致。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第10张

配合多轮对话能力,用户可以不断调整、融合多个素材,直到达到理想效果。不论是把草图变成产品,还是将蓝图转换成逼真的3D建筑,都能轻松实现概念到成品的跨越。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第11张

提示词:哆啦A梦和李白在月下对酌。圆月高悬,古代亭台楼阁,哆啦A梦穿着唐朝服饰,李白持酒壶,石桌上摆着酒具,仙气飘飘,中日混合画风,精致细节

更进阶的是专业级创意控制能力。你可以选择、微调或变换图像中的任何部分,从调整镜头角度、改变风格到应用高级调色,甚至改变场景光照——把白天变成夜晚,或创造散景效果。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第12张

这些过去需要在Photoshop里精细操作的工作,现在只需要一句话。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第13张

搜索 + 生成 = ?Google给出了终极答案

如果说搜索是Gemini 3的「左脑」,那么图像生成就是其「右脑」。

这也是Nano Banana Pro(Gemini 3 Pro Image)架构中被低估但最具颠覆性的能力。传统搜索是用户搜索、搜索引擎给链接、用户点进网站、网站提供界面。而Nano Banana Pro引入了搜索增强功能(Grounding with Search)。

当用户要求生成一张可视化的图片,展示在广州旅游的2天行程时,Nano Banana Pro生成的图片,包含了详细的行程地图、中英文注释、以及景点图片等。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第14张

再比如Nano Banana Pro能根据提示词要求,从搜索中获取最新天气状况,再把温度、风力、湿度、天气趋势等关键数据转化为鲜明、富有设计感的视觉内容。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第15张

提示词:搜索广州实时天气信息,制作一幅中文波普艺术风格的信息图,4:3

这项能力之所以重要,是因为它让创造过程具备了事实基础、实时性和可验证性。只能说,搜索不愧是Google的看家本领,无论是技术积攒的厚度,还是在理解上就已经领先一个身位。

在产品定位上,Google采用了双模型策略:旧版Nano Banana用于快速有趣的日常编辑,而Nano Banana Pro则专注于复杂构图与顶级画质的专业需求。用户可以根据场景自由选择。

对于消费者与学生,Nano Banana Pro已在Gemini应用中全球开放,只需选择「生成图像」并启用「Thinking(思考)」模式即可使用。免费用户会获得有限额度,超出后将自动切回原版Nano Banana。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第16张

而Google AI Plus、Pro和Ultra订阅用户则拥有更高额度。在美国地区,Google搜索的AI模式中,Pro与Ultra用户已经可以体验Nano Banana Pro。NotebookLM中的Nano Banana Pro也面向全球订阅用户开放。

值得注意的是,Google在AI透明度问题上采取了双重策略。所有AI生成的内容都会嵌入不可见的SynthID数字水印,用户现在可以在Gemini应用中直接上传图像,询问它是否由Google AI生成。这项能力将很快扩展到音频与视频。

既然Nano Banana Pro已经强大到这个地步,那么问题来了,普通人该如何最大化发挥它的能力?

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第17张

Google DeepMind的产品经理Bea Alessio给出了一份详细的使用指南,其中透露出不少关键信息。最基本的使用方式当然是随便说一句话,让模型自己猜你想要什么。但如果你想达到专业水准,就需要像导演一样思考。

一个完整的提示词应该包含六个要素:主体(谁或什么)、构图(如何取景)、动作(正在发生什么)、场景(在哪里)、风格(什么审美)、编辑指令(如何修改)。

而如果你想要更精细的控制,还需要进一步明确:画幅比例(9:16竖版海报还是21:9电影宽屏)、镜头参数(低角度、浅景深f/1.8)、光线细节(逆光的黄金时刻,拉长阴影)、调色方向(电影级调色,偏青绿色调)、以及具体的文字内容和样式。

附上官方博客地址:

https://blog.google/products/gemini/prompting-tips-nano-banana-pro/

这种「摄影指导式」的提示词写法,正是Nano Banana Pro和传统图像生成模型的分水岭。因为它真的能理解这些专业术语,并把它们准确地转化为视觉输出。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第18张

看到这里,再回过头看Google这几天连环发布的产品,就不难明白它想传达什么。

无论是前几天发布的Gemini 3 Pro预览版,还是今天亮相的Nano Banana Pro,Google试图向世人证明:通往AGI(通用人工智能)的道路,必须是多模态原生的。

只有一个能看、能听、能理解结构、能处理逻辑的模型,才可能对世界进行完整地「思考」。

从技术层面看,Nano Banana系列模型让图像生成正式进入了「先理解再表达」的阶段。

Google发布Nano Banana Pro:多模态图像生成模型开启AI视觉新纪元 AI图像生成 多模态 Google Nano Pro 第19张

当AI开始理解迷宫的路径、物体的结构、文字的含义甚至UI的交互逻辑时,它就不再只是一个画图工具,而是一个具备视觉思维能力的智能体。

从商业层面看,极低的推理成本和生成式UI的出现,将彻底改变内容生产和信息分发的逻辑。过去的互联网由一个个固定网页构成,而未来的互联网更可能是一块块随着你需求即时生长的界面。

设计将不再只是人的手艺,界面也不再是由团队层层打磨的成果。越来越多的视觉内容,会先交给AI,再由人去补充或微调。

Google显然已经提前看见了那个新世界,并且开始把入口推到所有人面前。