谷歌近期展现了强劲的崛起势头,推出了本年度或许最令人惊叹的文生图模型——Nano Banana,这一创新迅速吸引了全球目光。
谷歌在多模态人工智能技术上的长期坚持和深入耕耘,如今再次迎来了显著的成果,标志着AI视觉领域的重大进展。
自三天前以“Nano Banana”之名悄然亮相以来,相关讨论便迅速升温,其核心原因在于其卓越的性能表现,超出了许多人的预期。
这个模型前几天就在LMArena图片编辑模型排行榜上几乎以断代式优势领先其他竞争者,而昨天,谷歌官方正式宣布,Nano Banana正是源自Google DeepMind实验室推出的Gemini-2.5-Flash-Image-Preview技术。
Nano Banana现已一跃登上图像编辑排行榜的榜首位置,成为行业新标杆。
它不是期货产品,而是开箱即用的实用工具。无论是官方发布的演示素材,还是网友自行测试的案例,在图像一致性和功能多样性上都表现出了惊人的水准。
全球网络用户一致给予高度评价,纷纷称赞其比其他任何图像编辑模型都要出色。
不仅一致性强,处理速度还极快,相比GPT-Image等模型能实现更精准的编辑控制,同时,更具备了完整大型语言模型的理解能力,而非普通CLIP规模模型的认知水平。
访问地址:ai.studio/banana,用户可以轻松体验这一强大功能。
这个模型给人最直观的感受是,它允许用户通过语音或打字就能轻松修改和拼接图片,那种初见ChatGPT和Sora的“魔法感”再次回归,令人兴奋。
过往AI生图常被诟病于每次编辑都像随机掷骰子,细节容易失真、角色特征易变。而谷歌对Nano Banana的主要定位就是保持主体的高度一致性。
谷歌表示,无论是更换背景、调整视角或改变色调,画面中的人物与物体都能稳定保持原貌不走形,确保编辑过程的可靠性。
另一方面,它还是具备推理能力的图像模型。Nano Banana在提示词精准度方面达到了新高度,在听懂自然语言、理解复杂内容方面表现出色。
它不仅能够理解图像内容,还能自主处理、添加文字元素,实现更智能的编辑。
这让它得以同时支持多轮次编辑与多图叙事能力,用户可以持续修改生成的图片,但人物特征保持稳定,甚至可以维持原来的氛围感。诸如“房间布置逐步变化”、“漫画连续分镜”、“多角色合成互动”等复杂功能都能轻松实现,绘制带文字的技术插图、解答几何题目也能做到。
一句话就能让模型把图片切换视角,上图是原始图片,下图是生成的俯视视角图片,展示了强大的空间转换能力。
只需一件衣服、一个人物和一句话,衣服就能立刻穿到人身上,实现了无缝的虚拟试衣效果。
一句话指令,就能将拳王阿里的形象瞬间转变为辛普森风格,展示了强大的风格迁移能力。
将劈柴从印度老家顺移到谷歌办公室(尽管人物出现了些许变化),但整体场景转换自然。
只需两张人物照片,模型就能立即生成他们出演《碟中谍》和琼瑶剧的剧照,展现了创意合成潜力。
仅去掉小细节的局部编辑也很稳定,其他内容几乎没有变化,保证了编辑的精确性。
在人物一致性方面,网友测试表示,让人物转一圈再转回来,人看起来的变化不大,一致性确实非常出色。
在网友喜闻乐见的动漫领域,表现也同样喜人,给出角色和手绘图示意图,就能精确控制多个人物的姿态。
生成角色三视图后,漫画也可以稳定生成,确保了角色在不同场景中的一致性。
多次编辑工作更是让Nano Banana的成图更稳定,提升了用户体验。
网友测评后表示,连续编辑方面虽然尚未达到完美,会稍微变形一部分,但一致性已经相当可观,优于多数竞品。
多种风格的消费漫画信手拈来,展示了模型在创意内容生成上的灵活性。
网友实测反馈也很不错,除了人物五官有非常微小的变化,一致性真的非常强。如果使用的是普通人的照片,不仔细对比,很难看出面部细节的变化。
不过对于大家都很熟悉的名人,可能还是能让人看出面部不一致的地方,这表明模型在特定细节上仍有优化空间。
插画变手办更是近期网上一大测试热点,说到底还是因为Nano Banana的成图效果确实AI味儿少,看着真实。从平面到现实世界,却没有太大违和感,质感和特征都相当不错,网友们争相生成传播。
而绘制科学插图,制作用于解释的插图等包含内容生成的方面,网友也评价很高。
在几秒钟内完成科学插图的绘制,高保真文本渲染+语言理解+世界知识,Nano Banana确实是独一档的。
不过,也有不少网友表示,Nano Banana的过滤器有点敏感,有的正常请求也会被拒绝,这可能是内容安全策略的一部分。
除了内容本身,Nano Banana的运行速度也相当可观。谷歌表示,在同类模型通常需要10-15秒处理一张图片时,Gemini 2.5 Flash基本能做到1-2秒完成,大幅提升了效率。
Nano Banana配合谷歌的Veo3的工作流更是能很快生成相当质量的视频,网上已经出现了不少工作流,Nano Banana出图导入Veo3,几秒钟的短视频或者长视频都能够胜任。
而价格上,有网友根据谷歌放出的使用费率做了个简单的估算,生成或者修改一张图的成本在3毛钱左右,性价比突出。
网友表示,这是真的能替代美工的视觉工具,为创意工作带来了革命性变化。
谷歌这次真是盯上了视觉打工人的饭碗了,通过AI技术赋能,可能重塑整个行业的工作方式。
本文由主机测评网于2025-12-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212831.html