当前位置：首页 > 科技资讯 > 正文

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？

主机测评网
科技资讯
2026-04-03
971

难以置信的现状：

在视觉逻辑推理这一领域，当前顶尖的大模型表现依然停留在“幼儿阶段”。

近期，由UniPat AI、阿里、月之暗面、阶跃星辰等多家科研机构联合发布的最新测评显示：

在名为BabyVision的视觉推理基准测试中，强如Gemini 3 Pro Preview也仅是勉强胜过三岁幼童，与六岁儿童的认知水平相比，仍存在约20%的显著差距。

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第1张

而如果与成年人高达94.1的平均得分相比，两者之间更是存在着难以逾越的鸿沟。

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第2张

更令人深思的是，Gemini 3 Pro Preview已代表了目前AI模型的最高水准。

其他业内知名的前沿模型，如GPT-5.2、Claude 4.5 Opus以及Grok-4等，其整体视觉推理表现甚至尚未达到三岁小孩的标准。

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第3张

这一极具冲击力的研究结论，无疑给正处于风口上的基于VLA架构的具身智能领域敲响了警钟。

毕竟，如果一个AI系统的视觉认知能力还不如幼儿，我们很难指望它能在复杂的物理现实中，安全且精准地辅助人类完成各项任务。

BabyVision的研究同时也指明了未来的进化方向：

为了实现真正的高阶多模态智能，未来的模型构建必须摒弃“将视觉转化为语言描述”的间接路径，转而从底层逻辑上重构原生的视觉处理能力。

感知降维：视觉推理的语言化瓶颈

在全面的性能测评中，研究人员深入对比了开源与闭源模型的差异：

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第4张

在闭源阵营：Gemini 3-Pro-Preview以49.7%的准确率位居榜首，GPT-5.2 (34.4%) 和豆包-Seed-1.8 (30.2%) 紧随其后。

其余模型的表现则显得乏善可陈：Qwen3-VL-Plus仅为19.2%，Grok-4为16.2%，而Claude-4.5-Opus仅有14.2%。

在开源阵营中，Qwen3VL-235B-Thinking脱颖而出，总分达到了22.2%。

值得注意的是，Qwen3VL的Thinking版本明显优于其Instruct版本，这暗示了引入显式的推理思维链有助于缓解视觉感知中的不确定性。

然而，即便是体量最大的开源模型，其视觉推理深度依然无法与顶尖的闭源系统相提并论。

一个核心的疑问浮出水面：

为什么在学术竞赛、数学奥赛等高难度任务中展现出“博士级”逻辑的大模型，却在“找不同”或“拼图”这类简单的视觉任务中频频出错？

核心原因在于：当前的多模态模型通常采取“视觉转语言”的中转模式进行推理。

这种模式虽然借用了大语言模型强大的逻辑外壳，却造成了关键信息的流失：

凡是无法被词汇精准定义的视觉特征，都会在转化过程中被当作“噪声”丢弃。

例如，我们可以用文字描述“一辆红色汽车”，但却很难用语言完美复刻物体边缘的细微弧度、几何图形的精确交点或空间位置的微小偏移。

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第5张

而正是这些“不可言说”的视觉细节，构成了BabyVision测评的核心，也成为了大模型无法逾越的障碍。

BabyVision将视觉推理能力细分为四个关键维度：

细粒度辨别：捕捉微小的视觉差异；

视觉追踪：对路径、线条及动态轨迹的持续跟踪；

空间感知：对三维物理结构与空间位置的理解；

视觉模式归纳：总结并应用视觉中的几何与逻辑规律。

研究总结出当前MLLM面临的四个典型挑战：

1. 非言语性细节的缺失

大模型往往会忽略那些难以用语言表述的视觉特征。比如微小的角度偏移或像素级的边缘变化，在模型眼里可能都被归类为“相似”。

即便表现最强的Gemini 3 Pro Preview，在处理拼图匹配任务时也因为无法精准匹配边缘形状而误选了D选项。

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第6张

（标准答案：B）

人类通过“空间脑补”和边界比对瞬间完成的任务，AI却需要将其翻译成文字特征，这种高保真感知的缺失导致了失败。

2. 流形一致性的断裂

模型在长距离空间任务中难以保持感知的一致性。例如在复杂的连线迷宫中，Gemini经常在交叉点处“迷路”，将不同的路径混淆。

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第7张

这种错误在人类看来不可思议，但当视觉曲线被模型拆解为一连串“上下左右”的文字指令时，任何一个微小的指令偏差都会导致全盘皆输。

3. 空间想象力的匮乏

AI在处理从二维图像推断三维结构时表现吃力。它难以在脑海中进行“心理旋转”或视角转换。

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第8张

（标准答案：A）

当图像被压缩为文本摘要后，被遮挡的物体和投影关系就会变得模糊，导致模型数错积木数量或判错形状。

4. 视觉规律的抽象盲区

视觉模式归纳要求从示例中提取通用规律。大模型往往只会简单地统计属性（如颜色、数量），而无法真正理解视觉元素之间的因果逻辑。

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第9张

（标准答案：C）

突破口：强化学习与原生生成式推理

面对上述瓶颈，研究提出了两条改进路径：基于可验证奖励的强化学习（RLVR）与生成式建模。

在Qwen3-VL-8B-Thinking上进行的RLVR微调实验显示，模型的整体准确率提升了4.8%，证明了显式推理能够弥补部分视觉感知的短板。

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第10张

而生成式推理（BabyVision-Gen）则试图让AI像人一样，通过“画出思维过程”来解题。

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第11张

测评显示，NanoBanana-Pro在该领域表现突出，能够生成连贯的解题轨迹。这表明“生成”本身可能就是一种更高形式的视觉推理。

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第12张

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第13张

未来的趋势非常明确：我们需要跳出“语言的舒适区”，通过原生多模态架构（如Bagel、Sora 2等）保持视觉信号的高保真，让AI真正学会在视觉空间中进行“思考”。

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？ BabyVision基准视觉逻辑推理多模态大模型(MLLM) 具身智能瓶颈第14张

参考链接

[1]https://unipat.ai/blog/BabyVision

[2]https://arxiv.org/abs/2601.06521v1

服务器教程阿里云服务器免费vps

本文由主机测评网于2026-04-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260433414.html

视觉AI的“低幼”困境：多模态大模型推理能力为何难敌六岁儿童？