谷歌近期动作频频:刚刚发布了Gemini 3和Antigravity,紧接着又在Vertex AI平台上推出了Nano Banana Pro,其模型名称为gemini-3-pro-image-preview。
经过简单测试,我们发现这款模型不仅仅是“会画图”那么简单。它不仅生成图像质量稳定,更引人注目的是,它似乎开始具备一定的推理能力。
测试 1:跨次元的视频会议
我们先从一个有趣的测试入手,让现实世界中AI领域的五位巨头与动画界的光头角色共同参加一场视频会议。
prompts:
"A realistic HD screenshot-style image of a video conference interface, similar to Zoom, in 16:9 horizontal format. There are six participants, each in their own video tile: 1.Sam Altman, short hair, blue eyes, wearing a simple T-shirt or casual shirt, focused expression.2. Elon Musk, slightly slicked-back short hair, wearing a dark T-shirt or jacket, a faint smile. 3. Sundar Pichai, black-rim glasses, beard, wearing a dark suit with a light shirt, looking at the screen.4.Satya Nadella, bald, thin-frame glasses, business-casual suit, gentle expression.5. Mark Zuckerberg, short slightly curly hair, simple dark T-shirt, looking a bit tense but focused.6.the character in the uploaded image,turn the head toward the upper right.The interface shows classic video call UI elements: bottom bar with mute, stop video, share screen buttons, and a simple chat panel on the right side. Overall style: realistic, high resolution, soft lighting, modern tech atmosphere."
这个任务包含几个难点。首先是现实人物的生成:像奥特曼、马斯克这样大众极其熟悉的形象,只要与真实长相稍有偏差就会立刻穿帮。但Nano Banana Pro基本还原了每个人物的特征,细节处理到位,已经接近“以假乱真”的程度。
第二个难点是跨次元融合。我上传的是一张动漫人物图,Nano Banana Pro并没有简单粗暴地将其转化为写实风格,而是保留了角色原本的二维质感,使得这个二次元角色出现在真实视频会议画面中时,形成了一种既突兀又合理的奇妙效果。
最后,我在提示词里特意埋了一个小陷阱:要求这位动漫人物将头转向右上方,以避免Nano Banana Pro通过简单截图等方式蒙混过关。从结果可以看到,它不仅正确地完成了转头动作(说明不是截图),还理解了“视频会议画面是镜像的”这一点——从我们观众的视角看过去,角色实际上是转向了左上方。
我们再来看一些细节:Nano Banana Pro还在除了奥特曼之外的人物身后加上了对应公司的logo,仿佛在说“我知道我生成的人物是谁”。
右下角的对话内容也证实了这一点,每个人都在讨论与自己相关的话题,而且没有出现拼写错误。
这不禁让我好奇:Nano Banana Pro对文字的理解到底达到了什么程度?
测试 2:这菜单你不能细看
我们尝试让Nano Banana Pro生成英文、中文、日文和俄语四种菜单。
promtps:
"modern western bistro menu,vertical A4 layout, clean grid design,warm beige background with subtle paper texture,all text in English only, no other languages,sections as bold headings: Signature Dishes, Starters, Mains, Sides, Drinks,elegant handwritten-style restaurant title at the top,readable body font for dish names and prices,neat list layout with enough white space,small food illustrations in the corners: steak, salad, bread, wine glass,minimalist icons, soft warm lighting,high resolution, 4k, printable, no watermark, no logo."
"Japanese izakaya menu,modern Japanese style, vertical A4 layout, clean grid,warm beige background, soft paper texture,all text in Japanese only, no English,sections as bold Japanese headings:おすすめ, 焼き物, 揚げ物, ご飯もの, 飲み物,elegant handwritten-style Japanese title at the top,readable Japanese body font,neatly aligned dish names and prices, plenty of white space,small illustrations in the corners: 串焼き, 枝豆, たこ唐揚げ, 日本酒グラス,minimalist icon style, cozy warm lighting,high resolution, 4k, printable, no watermark, no logo。"
"Russian home-style cafe menu, cozy and traditional,vertical A4 page, clean and simple grid layout,warm beige background with gentle paper texture,all text in Russian only, no English,sections as bold Russian headings:Фирменные блюда, Горячие блюда, Закуски, Гарниры, Напитки,elegant handwritten-style Russian title at the top,clear serif body font for dish names and prices,neatly organized lists with generous white space,small corner illustrations: bowl of borscht, dumplings, slice of rye bread, vodka glass,minimalist icons, soft warm lighting,high resolution, 4k, printable, no watermark, no logo."
Chinese Sichuan restaurant menu, modern Sichuan style, vertical A4 layout, clean grid design, warm beige background with subtle rough paper texture, menu hanging on the interior wall of a cozy Sichuan restaurant, soft spotlight from above and natural shadows, only Simplified Chinese text, bold section headings: 招牌川菜, 热菜, 凉菜, 主食, 饮品, top title in elegant handwritten Chinese, readable Chinese body font, dish names + prices neatly listed, small corner illustrations: 辣椒、花椒、蒜瓣、红油小碟, minimalist icons, warm ambient restaurant lighting, slight vignette, high resolution, 4k, printable, no watermark, no logo。
这四份菜单很容易看出各自使用了哪种语言,但如果你仔细看,就会发现一些问题。
例如中文的四川餐馆菜单,我们可以看到标题“大正宗川味小馆”以及分类词“招牌川菜”、“凉菜”、“主食”等,还原得很完美。但细看具体的菜品名称,就会露出AI的马脚,比如“蒜泥”两个字很模糊,58元的菜品基本认不出是什么中文。由此可以猜测,Nano Banana Pro能够很好地还原提示词中明确给出的文字,但对于提示词之外由AI自行生成的文字,把控能力还不够强。
为了验证这个想法,我们将所有中文菜品名称直接写入提示词中。
prompts:
Sichuan restaurant menu poster,vertical A4 layout hanging on a textured wall,warm spotlight from above, soft shadow under the menu,light beige paper with subtle fiber texture,modern Sichuan style, clean grid layout,small corner illustrations: chili peppers, Sichuan peppercorns, garlic cloves,handwritten-style Chinese title, clear body font,only Simplified Chinese text, no English,cozy indoor lighting, slight vignette, natural restaurant ambience,high resolution, 4k, printable, no watermark, no logo.Menu text (Chinese only):招牌川菜:沸腾水煮鱼(招牌) ¥128 歌乐山辣子鸡 ¥88 毛血旺(精品) ¥98 夫妻肺片 ¥78 口水鸡 ¥68 热菜:宫保鸡丁 ¥58 回锅肉 ¥62 麻婆豆腐 ¥42 鱼香肉丝 ¥48 蒜泥白肉 ¥52 凉菜:拍黄瓜 ¥22 凉拌木耳 ¥28 川北凉粉 ¥26 口水茄子 ¥32 皮蛋豆腐 ¥24 主食:四川担担面 ¥28 钟水饺 ¥26 赖汤圆 ¥22 红油抄手 ¥24 米饭 ¥5 饮品:酸梅汤 ¥18 王老吉 ¥12 青岛啤酒 ¥15 热茶(壶) ¥38
可以看到,虽然部分字体有些虚,但基本还原了提示词中的中文。
测试 3:老中医+老先生,google 用了多少中国文化素材
除了中文,中国还有许多独特的文化图像,比如看手相、算命、足底穴位等。Nano Banana Pro在处理这些内容时,也能像处理中文一样表现出色吗?
prompts:给下面的手看看手相。
可以看到Nano Banana Pro像算命先生一样清晰地画出了手上的生命线、感情线和智慧线。然而,它并没有学到家,把智慧线和感情线的位置画反了。
再来看老中医擅长的足底穴位。
prompts:"我想要对肾好,该按哪里"
Nano Banana Pro不仅知道对肾好要按涌泉穴,还正确指出了涌泉穴的位置。
测试 4:哪里不会拍哪里
Nano Banana Pro具备拍照解题的潜力,但正确率有待验证。我们来测试一下它的实力。
我们在网上找了两道题,一道代数题、一道几何题。
prompts:这题答案是什么?
由于作者本人数学已废,我们请GPT-5来判断Nano Banana Pro的回答是否正确。
首先是第一题代数题,GPT-5的回答是:在「初中数学默认前提:a,b,c 为实数,且 a,b≥0」的条件下,解答是对的。唯一可挑的刺是:AM-GM需要 a,b≥0 的前提,题目没写,但在七年级题目中一般是默认的,所以在这个教学语境下,这份解答是成立的。
再看第二道更复杂的几何题,GPT-5计算后也给出了和Nano Banana Pro一样的答案。
从这几轮测试来看,Nano Banana Pro已经很难被简单归类为一个“画图工具”。它一方面在像素层面稳稳地还原人物五官、菜单排版、界面细节,另一方面又在语义层面做着不那么“美工”的工作:知道谁是哪个大厂CEO,能分清菜单上哪些文字必须一字不差照抄、哪些内容可以自由发挥。遇到看手相、找穴位、做几何题这类需要结构理解的任务,它也不是随便糊一张图,而是先想清楚“这条线该从哪起、大致是什么角度”“这个高要垂到哪条边上”,再动手绘制。
它当然还不完美,会把智慧线画反,也会在俄文菜单中冒出几串诡异单词,但你能明显感觉到,它已经在用“推理+生成”的流程去理解prompt和图片,而不是机械地把词表映射成纹理。对一个主打图像生成的模型来说,这种能力的边界正在悄悄往“世界模型”方向挪移:它不只是知道“像什么样子画出来”,还在内部搭建一个粗糙的世界观——谁和谁属于同一个会议室,菜单应该长在什么纸张上,力学和几何关系大概如何运转。
这也是为什么它让人既兴奋又有些警惕:当一个生图模型开始具备对场景、人物关系、物理与几何结构的统一理解,它离“看懂世界再画世界”就不远了。下一步,当你对它说“帮我画一道我看不懂的题的解题过程”,它很可能先在自己的世界模型里把题做完,再顺手把推理过程以一张图的方式展现给你。
本文由主机测评网于2026-02-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260225773.html