早先风靡全网的nano banana,如今正式迎来2.0版本的升级。
全新的nano banana 2究竟有多强大?只需看一眼那张显示11:15的时钟和满杯红酒的照片,便可知晓。
为何这张照片如此引人注目?在AI生图领域,存在一个极高难度的挑战,至今尚无AI能稳定完成,那就是时钟与满杯红酒测试。
只需输入提示词「时钟显示11:15,红酒杯满至杯口(11:15 on the clock and a wine glass filled to the top)」,即可检验AI生图是否足够智能。
我们在大模型竞技场、豆包Seedream及nano banana 1.0版本上多次尝试,没有任何AI能准确呈现时钟刻度及近乎溢出的红酒。
然而,nano banana 2做到了。
相较于当前版本,它的文本渲染能力大幅提升,可直接生成文字,驾驭不同风格与语言;世界知识进一步增强,能精准创建各类信息图表;指令遵循表现也更为出色。
更为逼真的黑板字|图片来源 x@testingcatalog
与Nano Banana最初在大模型竞技场以抽卡形式亮相不同,Nano Banana 2模型是在media.io平台上被曝光,用户可在此网站体验nano banana 2。
Media AI(medio.io)目前仅提供nano banana、Seedream等AI生图模型
然而,这款被称为nano banana 2的模型迅速下架。Reddit上有用户提及Media AI仅短暂开放了一个多小时的使用权限。
但就在这短暂时间内,网友们发现其生图效果确实堪称NB 2.0,很快在社交媒体传播开来。众人纷纷分享nano banana 2预览版的输出结果,发现与1.0版本存在显著差异。
以下两张分别来自1.0和2.0版本的图片,你能分辨哪张出自nano banana 2吗?
均为汽车模特在海边公路拍摄大片,但明显首张图片色彩与风格更准确,摆脱了AI照片特有的“塑料感”。
这两张偏科幻风格的图片,差异更为明显。第二张图电影感更强,视觉质量更高,细节呈现更精准。
举例而言,第一张图的设备仪表板与第二张图对比,可见直接区别,nano banana生成的仪表板仍带有明显AI风格。
据X平台爆料博主testingcatalog透露,nano banana 2目前仍基于Gemini 2.5 Flash作为基础模型,尚未完全采用Gemini 3.0 Pro。
这意味着nano banana 2图像模型的发布时间可能早于Gemini 3。我们汇总了当前关于nano banana 2的爆料,其亮点包括:
1、能处理更复杂任务,如精准着色、高级视角或角度控制,以及纠正生成图像中的文本元素等,这些是当前1.0版本无法支持的。
输入提示词将水变为粉红色,依次为原始图像、Nano Banana 1、Nano Banana 2|图片来源 x@Angaisb_
2、全新的多步骤生成工作流程,nano banana不再“一键出图”,而是更贴近设计师的工作方式。
1.规划:花费较长时间规划输出内容。
2.生成:创建初步图像。
3.审查:通过内置图像分析功能进行自我审查。
4.修正:识别并纠正任何错误。
5.迭代:根据需要多次迭代,最终交付结果。
3、支持更高分辨率及更全面宽高比图像生成,宽高比涵盖1:1、2:3、3:2、3:4、4:3、9:16、16:9及21:9等,分辨率据爆料称提供1K、2K和4K多种模式。
ComfyUI工作流界面
其中,多步工作流可能是nano banana更新中最具差异化的卖点。以往我们或许了解ComfyUI等工具可实现生图、生视频工作流。
但现在直接通过nano banana即可实现,这对高精度图像生成而言是一次重大飞跃。
实际表现仍需通过生成图片验证,让我们继续查看nano banana 2的测试案例。
首先是真实的电脑截图,nano banana 2能直接生成Windows电脑截图,屏幕显示浏览器正访问YouTube网站,且指定视频封面为野兽先生。
直接生成Windows电脑截图。提示词:Generate a screenshot of a windows 11 desktop, with google chrome open, showing a YouTube thumbnail of Mr. Beast on http://YouTube.com(生成Windows 11桌面截图,谷歌Chrome已打开,显示YouTube上Mr. Beast的缩略图,链接为http://YouTube.com)|图片来源:x@synthwavedd
更复杂的应用,甚至能让nano banana 2直接生成Google DeepMind网页截图,密密麻麻的文字未出现乱码,令人惊叹。
但细心网友仍发现,nano banana 2的效果并非完美,如图中出现了Gemini 31、Google DeepMind - Nevdscl等错别字。
若不细看,仅观察大标题与小标题,很难察觉错误。然而,当处理文本内容较少时,nano banana 2出错概率会降低。
这张电视台新闻直播现场图片,屏幕上文字准确无误,格式统一;甚至地板上反射的文字也正确显示。
同样,这张电视直播截图,主播位于屏幕右侧,底部有经典新闻跑马,所有文字均准确渲染。
提示词:50mm big budget live broadcast 8k photograph close-up an attractive italian age 30 wry female news anchor. She is at a news desk and on a screen behind her is a bio engineered Banana with text "Nano Banana 2 live on Media .IO?" Live news shot. There is a red and blueckhyron on the bottom of the image that says "Breaking News: Nano Banana 2 on Media .IO?"|图片来源 x@BrentLynch
我们也将相同提示词交由当前nano banana处理。
这张照片AI感不算强烈,但对背景屏幕做了虚化处理,使画面不像新闻现场,文字反射稍显刻意,重点突出了主播形象。
如开头所示11:15时钟与满杯红酒,评论区网友纷纷贴出使用Grok、ChatGPT等其他模型的生图结果,均不如nano banana 2准确。
还有网友分享让nano banana 2将汉堡玻璃化,其中仅它成功将整个汉堡变为玻璃;而字节的Seedream和Riverflow仅将面包部分转为玻璃。
提示词:制作玻璃汉堡(Make the hamburger made of glass);图一为nano banana 2生成图片|图片来源 x@Angaisb_
世界知识方面的进步,使nano banana 2更能理解提示词,在严格遵循指令的同时,允许用户使用更简短的提示。
例如有网友测试生成GTA 6预告片,nano banana 2直接提供了完整的YouTube页面,甚至知晓真正的GTA 6标志。
他还测试了提示词「one piece live action netflix」,海贼王真人版奈飞,结果nano banana不仅识别Netflix的Logo,还知晓相关真人版演员。
结合世界知识与文本渲染,nano banana 2还能在黑板上解题,这比观看聊天框中冗长的数学推理更为直观。
而nano banana 1.0版本与2.0版本的对比则如下所示。
还有许多类似案例,使用nano banana 2解答数学题并在黑板上呈现。
同样是在Media AI平台短暂亮相的预览版测试效果。
提示词:Ken Kaneki carrying his friend in his arms in the snow, Tokyo Ghoul|图片来源 x@legit_api
东京食尸鬼中金木研雪中怀抱朋友的场景,被自然生成。除稳定驾驭动漫风格外,赛博朋克风格的生图效果也极具高级感。
提示词:Cyberpunk hacker robot working in front of many monitors|图片来源 x@testingcatalog
还有各式各样的人像“创意”图片。
以及这张充满胶片质感的合影。
但有网友在评论区指出,“这并非nano banana,Media AI是一家中国公司。如同DeepSeek问世时,我们也误以为它来自OpenAI,这是他们的常见策略。”
当初nano banana 1在大模型竞技场首次出现时,众人亦无法确认该模型是否真出自Google,但只要生图效果足够惊艳,我们便会认可。
以目前的生图效果观之,称之为nano banana 2完全名副其实。
本文由主机测评网于2026-01-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260119553.html