当前位置:首页 > 科技资讯 > 正文

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童?

难以置信的现状:

在视觉逻辑推理这一领域,当前顶尖的大模型表现依然停留在“幼儿阶段”。

近期,由UniPat AI、阿里、月之暗面、阶跃星辰等多家科研机构联合发布的最新测评显示:

在名为BabyVision的视觉推理基准测试中,强如Gemini 3 Pro Preview也仅是勉强胜过三岁幼童,与六岁儿童的认知水平相比,仍存在约20%的显著差距。

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第1张

而如果与成年人高达94.1的平均得分相比,两者之间更是存在着难以逾越的鸿沟。

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第2张

更令人深思的是,Gemini 3 Pro Preview已代表了目前AI模型的最高水准。

其他业内知名的前沿模型,如GPT-5.2Claude 4.5 Opus以及Grok-4等,其整体视觉推理表现甚至尚未达到三岁小孩的标准。

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第3张

这一极具冲击力的研究结论,无疑给正处于风口上的基于VLA架构的具身智能领域敲响了警钟。

毕竟,如果一个AI系统的视觉认知能力还不如幼儿,我们很难指望它能在复杂的物理现实中,安全且精准地辅助人类完成各项任务。

BabyVision的研究同时也指明了未来的进化方向:

为了实现真正的高阶多模态智能,未来的模型构建必须摒弃“将视觉转化为语言描述”的间接路径,转而从底层逻辑上重构原生的视觉处理能力。

感知降维:视觉推理的语言化瓶颈

在全面的性能测评中,研究人员深入对比了开源与闭源模型的差异:

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第4张

在闭源阵营:Gemini 3-Pro-Preview以49.7%的准确率位居榜首,GPT-5.2 (34.4%) 和豆包-Seed-1.8 (30.2%) 紧随其后。

其余模型的表现则显得乏善可陈:Qwen3-VL-Plus仅为19.2%,Grok-4为16.2%,而Claude-4.5-Opus仅有14.2%。

在开源阵营中,Qwen3VL-235B-Thinking脱颖而出,总分达到了22.2%

值得注意的是,Qwen3VL的Thinking版本明显优于其Instruct版本,这暗示了引入显式的推理思维链有助于缓解视觉感知中的不确定性。

然而,即便是体量最大的开源模型,其视觉推理深度依然无法与顶尖的闭源系统相提并论。

一个核心的疑问浮出水面:

为什么在学术竞赛、数学奥赛等高难度任务中展现出“博士级”逻辑的大模型,却在“找不同”或“拼图”这类简单的视觉任务中频频出错?

核心原因在于:当前的多模态模型通常采取“视觉转语言”的中转模式进行推理。

这种模式虽然借用了大语言模型强大的逻辑外壳,却造成了关键信息的流失:

凡是无法被词汇精准定义的视觉特征,都会在转化过程中被当作“噪声”丢弃。

例如,我们可以用文字描述“一辆红色汽车”,但却很难用语言完美复刻物体边缘的细微弧度、几何图形的精确交点或空间位置的微小偏移。

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第5张

而正是这些“不可言说”的视觉细节,构成了BabyVision测评的核心,也成为了大模型无法逾越的障碍。

BabyVision将视觉推理能力细分为四个关键维度:

细粒度辨别:捕捉微小的视觉差异;

视觉追踪:对路径、线条及动态轨迹的持续跟踪;

空间感知:对三维物理结构与空间位置的理解;

视觉模式归纳:总结并应用视觉中的几何与逻辑规律。

研究总结出当前MLLM面临的四个典型挑战:

1. 非言语性细节的缺失

大模型往往会忽略那些难以用语言表述的视觉特征。比如微小的角度偏移或像素级的边缘变化,在模型眼里可能都被归类为“相似”。

即便表现最强的Gemini 3 Pro Preview,在处理拼图匹配任务时也因为无法精准匹配边缘形状而误选了D选项

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第6张

(标准答案:B)

人类通过“空间脑补”和边界比对瞬间完成的任务,AI却需要将其翻译成文字特征,这种高保真感知的缺失导致了失败。

2. 流形一致性的断裂

模型在长距离空间任务中难以保持感知的一致性。例如在复杂的连线迷宫中,Gemini经常在交叉点处“迷路”,将不同的路径混淆。

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第7张

这种错误在人类看来不可思议,但当视觉曲线被模型拆解为一连串“上下左右”的文字指令时,任何一个微小的指令偏差都会导致全盘皆输。

3. 空间想象力的匮乏

AI在处理从二维图像推断三维结构时表现吃力。它难以在脑海中进行“心理旋转”或视角转换。

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第8张

(标准答案:A)

当图像被压缩为文本摘要后,被遮挡的物体和投影关系就会变得模糊,导致模型数错积木数量或判错形状。

4. 视觉规律的抽象盲区

视觉模式归纳要求从示例中提取通用规律。大模型往往只会简单地统计属性(如颜色、数量),而无法真正理解视觉元素之间的因果逻辑。

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第9张

(标准答案:C)

突破口:强化学习与原生生成式推理

面对上述瓶颈,研究提出了两条改进路径:基于可验证奖励的强化学习(RLVR)与生成式建模。

在Qwen3-VL-8B-Thinking上进行的RLVR微调实验显示,模型的整体准确率提升了4.8%,证明了显式推理能够弥补部分视觉感知的短板。

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第10张

生成式推理(BabyVision-Gen)则试图让AI像人一样,通过“画出思维过程”来解题。

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第11张

测评显示,NanoBanana-Pro在该领域表现突出,能够生成连贯的解题轨迹。这表明“生成”本身可能就是一种更高形式的视觉推理。

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第12张

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第13张

未来的趋势非常明确:我们需要跳出“语言的舒适区”,通过原生多模态架构(如Bagel、Sora 2等)保持视觉信号的高保真,让AI真正学会在视觉空间中进行“思考”。

视觉AI的“低幼”困境:多模态大模型推理能力为何难敌六岁儿童? BabyVision基准  视觉逻辑推理 多模态大模型(MLLM) 具身智能瓶颈 第14张

参考链接

[1]https://unipat.ai/blog/BabyVision

[2]https://arxiv.org/abs/2601.06521v1