当前位置:首页 > 科技资讯 > 正文

谷歌Nano Banana Pro挑战OpenAI:AI生成图像的进化之路

奥特曼向OpenAI的全体员工发出了一封内部信,他坦言道,虽然OpenAI目前仍居领先地位,但谷歌正在不断缩短差距。奥特曼也承认,正是谷歌最近的一系列产品发布,给OpenAI带来了巨大的压力。

正如奥特曼所言,谷歌这次带来的不仅是赢得满堂彩的Gemini 3 Pro,还有让整个AIGC圈震撼的Nano Banana Pro。在此之前,所有生图模型的底层逻辑都是临摹世界。通过海量的数据库,寻找最接近描述的图,将其拼凑给你。

而Nano Banana Pro的出现,彻底打破了这一规则。它不是在“画图”,而是在“模拟物理世界”。其最大的突破在于引入了思维链(Chain of Thought)推理机制,先让模型进行思考,再去画图。

在落下第一个像素之前,模型会先在潜空间内进行逻辑推演,计算物体的数量、确定光影的投射角度、规划空间嵌套关系。它不再依赖文本作为中转站,推理结果直接以高维向量的形式指导像素生成。

那么,为什么OpenAI开发不出Nano Banana Pro呢?

01

在回答问题之前,不妨先看看Nano Banana Pro和OpenAI现在生图主要使用的GPT-4o到底有何区别。

以“三个苹果”的生成任务为例,提示词为:“左侧苹果带有咬痕,中间苹果附着水珠,右侧苹果呈现腐烂状态”。面对这一指令,GPT-4o通常会迅速生成一张色彩明艳、构图完美的图像。

但在细节核验时往往暴露出概率生成的缺陷,中间苹果上面的水珠其排布不符合客观规律,而右边苹果的腐烂看起来又过于刻意。

谷歌Nano Banana Pro挑战OpenAI:AI生成图像的进化之路 Nano Pro OpenAI AIGC 技术路径 第1张

相比之下,Nano Banana Pro输出的图像不仅数量精确,且每个对象的属性都严格对应——左侧的缺口、中间的折射光感、右侧的氧化纹理,均被精准还原。

谷歌Nano Banana Pro挑战OpenAI:AI生成图像的进化之路 Nano Pro OpenAI AIGC 技术路径 第2张

这种表象差异的背后,是两条截然不同的技术路径。

GPT-4o的生成机制本质上基于统计学相关性,它在海量训练数据中检索“苹果+咬痕”的视觉特征,并通过概率分布进行拼贴与融合。它并未真正理解“三个”的数量概念,也未构建“腐烂”的物理模型,仅是根据高维空间中的特征距离进行近似匹配。

而Nano Banana Pro引入了思维链(Chain-of-Thought, CoT)机制,将图像生成过程从单纯的“像素预测”升级为“逻辑推演”。在落下第一个像素前,模型内部已完成了一轮符号化的规划:首先确立实体对象(Object 1, 2, 3),随即分配空间坐标,最后绑定物理属性。

针对“咬痕”,它推演的是几何形态的改变;针对“水珠”,它计算的是光学反射与折射的物理规律;针对“腐烂”,它模拟的是材质属性的演变。这是一套从语义理解到逻辑规划,再到执行生成的全链路闭环。

这种机制在处理涉及物理规律的复杂场景时优势尤为凸显。

提示词“窗台上的半杯水,阳光从左侧射入”。

GPT-4o所生成的图片仅具备视觉合理性,但在物理上自相矛盾的光影关系。此时,窗台左侧应存在由玻璃杯反射出来的阳光,但是图片中仅存在右侧折射出来的光线。

谷歌Nano Banana Pro挑战OpenAI:AI生成图像的进化之路 Nano Pro OpenAI AIGC 技术路径 第3张

而Nano Banana Pro会先行计算光源向量,推导阴影投射方向以及液体介质的光线折射率。这种基于物理常识的推理,使得生成结果不再是视觉元素的堆砌,而是对物理世界的数字模拟。

谷歌Nano Banana Pro挑战OpenAI:AI生成图像的进化之路 Nano Pro OpenAI AIGC 技术路径 第4张

更为深层的架构差异在于,OpenAI目前的体系存在显著的“文本信息瓶颈”(Text Information Bottleneck)。在ChatGPT中调用绘图功能时,用户的简短指令往往会被GPT改写为一段详尽的Prompt,再传递给图片生成模型。

这一过程看似丰富了细节,实则引入了噪声。文本作为一维的线性信息载体,在描述三维空间关系、拓扑结构及复杂的物体属性绑定时,存在天然的低带宽缺陷。改写过程极易导致原始意图中的关键约束被修饰性语言淹没,造成信息的有损传输。

02

橘生淮南则为橘,生于淮北则为枳。Nano Banana Pro和GPT-4o之所以会有如此的差距,正是因为其开发者——谷歌和OpenAI在AI这条路上选择了两种完全不同的发展方向。

谷歌选择的是“原生多模态”这条路。

就是从模型训练的第一天起,文本、图像、视频、音频就混在一起,扔进同一个神经网络里让它学。在Gemini的眼里,这些事物本质上没有区别,都是数据。它不需要先把图片翻译成文字再去理解文字。

而OpenAI走的是“模块化拼接”这条路。

它的逻辑是:让专业的人做专业的事。GPT-5负责理解语言和逻辑推理;GPT-4o负责生成图像;Whisper负责处理语音。每个模块都做得很好,然后通过API把它们连起来。

这两种路线没有绝对的对错之分,但会导致完全不同的结果。

谷歌最大的优势来自于YouTube——全世界最大的视频库。里面有几十亿小时的视频内容。这些视频不是静态的图片,而是包含了时间序列、因果关系、物理变化的动态数据。Gemini从一开始就是“看这些视频长大的”。

03

那么谷歌又是如何追上OpenAI以至于让奥特曼发内部信来强调危机感的呢?

谷歌选择在“准确性”和“逻辑”上发力。

为了实现这个目标,谷歌把思考过程引入了图像生成过程。这个决策会大大增加计算成本:在生成图像的时候加入推理步骤后,生成速度就变慢了。但谷歌判断这个代价是值得的:因为它换来的是质的提升。