当前位置:首页 > 科技资讯 > 正文

Nano Banana Pro:超越“画图”的AI新境界

谷歌持续创新:先抛出Gemini 3和Antigravity,接着Nano Banana Pro在Vertex AI中重磅登场,模型名为gemini-3-pro-image-preview。

一番初步测试后,我们感受到它不仅仅是“绘图工具”那么简单,生成的图像质量卓越,更引人注目的是,它似乎开始“推理”了。

模型实测:

从手相解读到几何题,Nano Banana Pro还有哪些能耐?

测试1:跨次元的视频会议

我们进行了一个简单测试,将现实AI界五大巨头与动画界的光头角色共同置于一场视频会议中。

prompts:

“一张16:9横屏格式的视频会议界面高清截图,类似Zoom。包含六个视频窗口:1. Sam Altman,短发,蓝眼,穿着简约T恤或休闲衬衫,专注表情。2. Elon Musk,短发略向后梳,穿深色T恤或夹克,淡淡微笑。3. Sundar Pichai,黑框眼镜,胡须,穿深色西装配浅色衬衫,注视屏幕。4. Satya Nadella,光头,细框眼镜,商务休闲装,温和表情。5. Mark Zuckerberg,短发微卷,穿简单深色T恤,略显紧张但专注。6. 上传图片中的角色,头部转向右上角。界面显示经典视频通话UI元素:底部有静音、停止视频、分享屏幕按钮,右侧有简单聊天面板。整体风格:写实、高分辨率、柔和照明、现代科技氛围。”

Nano Banana Pro:超越“画图”的AI新境界 Pro AI 图像生成 推理 第1张

这次任务挑战重重。首先是现实人物的精准生成。如奥特曼、马斯克这类广为人知的角色,任何细微差别都会暴露。但Nano Banana Pro成功还原了每个人物的特征,细节处理得当,几乎达到“以假乱真”的境界。

第二个挑战是跨次元融合。我上传了一张动漫人物图,Nano Banana Pro并未简单粗暴地将其转为写实风格,而是保留了原有的二维质感,使得二次元角色融入真实视频会议画面时显得既突兀又合理。

此外,我在提示词中设置了一个小陷阱,要求动漫人物转头向右上方。结果显示,Nano Banana Pro不仅完成了这个动作,说明非截图生成;还理解了“视频会议画面为镜像”这一点,从观众视角看,角色实际上转向了左上方。

Nano Banana Pro:超越“画图”的AI新境界 Pro AI 图像生成 推理 第2张

再观察其他细节,Nano Banana Pro在除奥特曼外的人物身后添加了对应公司的logo,仿佛在宣告“我认得这些角色”。

右下角的对话也证实了这一点,各自讨论着与自身相关的话题且无误。

那么,Nano Banana Pro对文字的理解程度如何?

测试2:这菜单不能细究

我们尝试让Nano Banana Pro生成英文、中文、日文和俄文四种菜单。

promtps:

“现代西方小酒馆菜单,A4竖版布局,简洁网格设计,暖色米黄背景带细腻纸张纹理。全英文文本,无其他语言。部分包括加粗标题:招牌菜、开胃菜、主菜、配菜、饮品。顶部有优雅手写体餐厅名称。菜名和价格使用易读正文字体。列表布局整洁且留白充足。角落有小食品插图:牛排、沙拉、面包、葡萄酒杯。简约图标设计。柔和暖光照明。高分辨率4K可打印无水印无logo。”

Nano Banana Pro:超越“画图”的AI新境界 Pro AI 图像生成 推理 第3张

这四份菜单一眼就能分辨出所用语言,但经不起细究。

以中文四川餐馆菜单为例,标题“大正宗川味小馆”及分类词如“招牌川菜”等还原得相当完美。但细看具体菜品就会露出AI的马脚,如“蒜泥”两字模糊,“58元”的菜名几乎无法辨认。这表明Nano Banana Pro能很好还原提示词中的文字,但对额外生成的文字控制力较弱。

为验证这一点,我们将菜单所有中文输入到promtps中。

Nano Banana Pro:超越“画图”的AI新境界 Pro AI 图像生成 推理 第4张

测试3:老中医+老先生,谷歌用了多少中国文化元素

除了中文文本,中国独有的图像如看手相、算命、穴位图等Nano Banana Pro也能驾驭得好吗?

Nano Banana Pro:超越“画图”的AI新境界 Pro AI 图像生成 推理 第5张

Nano Banana Pro如同算命先生般清晰地画出了生命线、感情线和智慧线。然而,它并未完全掌握精髓——将智慧线和感情线画反了。

Nano Banana Pro:超越“画图”的AI新境界 Pro AI 图像生成 推理 第6张

测试4:哪里不会拍哪里

虽然nanobanana有拍照解题的潜力但正确率不高。那么Nano Banana Pro表现如何?

我们在网上挑选了两道题:一道代数题和一道几何题。

Nano Banana Pro:超越“画图”的AI新境界 Pro AI 图像生成 推理 第7张

Nano Banana Pro:超越“画图”的AI新境界 Pro AI 图像生成 推理 第8张

Nano Banana Pro:超越“画图”的AI新境界 Pro AI 图像生成 推理 第9张

经过几轮测试可以发现Nano Banana Pro已难以简单归类为“绘图工具”。它在像素层面稳定还原人物五官、菜单排版和界面细节的同时在语义层面也展现出非“美工”的才能:能识别出谁是某大厂CEO能分清菜单上哪些文字需精确复制哪些内容可自由发挥。面对手相解读、找穴位、做几何题等需要结构理解的任务它并非随意绘图而是先理清“线条起点和角度”“高度垂到哪条边”再动手绘制。

尽管它还不完美会将智慧线画反也会在俄文中出现乱码但它显然在用“推理+生成”流程理解prompt和图片而非机械映射词表。对一个主打图像生成的模型来说其能力边界正悄然向“世界模型”靠拢:它不仅要知道“画得像什么样子”还要在内部构建粗糙的世界观理解谁与谁在同一会议室菜单应长什么样力学和几何关系如何运作。

这既令人兴奋又稍感警惕:当生图模型开始具备对场景、人物关系、物理与几何结构的统一理解它离“看懂世界再画世界”就不远了。未来当你要求它“画一道我不懂的题解题过程”它很可能先在自己的世界模型中解题再将推理过程以一张图的方式展现给你。