难以置信的现状:
在视觉逻辑推理这一领域,当前顶尖的大模型表现依然停留在“幼儿阶段”。
近期,由UniPat AI、阿里、月之暗面、阶跃星辰等多家科研机构联合发布的最新测评显示:
在名为BabyVision的视觉推理基准测试中,强如Gemini 3 Pro Preview也仅是勉强胜过三岁幼童,与六岁儿童的认知水平相比,仍存在约20%的显著差距。
而如果与成年人高达94.1的平均得分相比,两者之间更是存在着难以逾越的鸿沟。
更令人深思的是,Gemini 3 Pro Preview已代表了目前AI模型的最高水准。
其他业内知名的前沿模型,如GPT-5.2、Claude 4.5 Opus以及Grok-4等,其整体视觉推理表现甚至尚未达到三岁小孩的标准。
这一极具冲击力的研究结论,无疑给正处于风口上的基于VLA架构的具身智能领域敲响了警钟。
毕竟,如果一个AI系统的视觉认知能力还不如幼儿,我们很难指望它能在复杂的物理现实中,安全且精准地辅助人类完成各项任务。
BabyVision的研究同时也指明了未来的进化方向:
为了实现真正的高阶多模态智能,未来的模型构建必须摒弃“将视觉转化为语言描述”的间接路径,转而从底层逻辑上重构原生的视觉处理能力。
在全面的性能测评中,研究人员深入对比了开源与闭源模型的差异:
在闭源阵营:Gemini 3-Pro-Preview以49.7%的准确率位居榜首,GPT-5.2 (34.4%) 和豆包-Seed-1.8 (30.2%) 紧随其后。
其余模型的表现则显得乏善可陈:Qwen3-VL-Plus仅为19.2%,Grok-4为16.2%,而Claude-4.5-Opus仅有14.2%。
在开源阵营中,Qwen3VL-235B-Thinking脱颖而出,总分达到了22.2%。
值得注意的是,Qwen3VL的Thinking版本明显优于其Instruct版本,这暗示了引入显式的推理思维链有助于缓解视觉感知中的不确定性。
然而,即便是体量最大的开源模型,其视觉推理深度依然无法与顶尖的闭源系统相提并论。
一个核心的疑问浮出水面:
为什么在学术竞赛、数学奥赛等高难度任务中展现出“博士级”逻辑的大模型,却在“找不同”或“拼图”这类简单的视觉任务中频频出错?
核心原因在于:当前的多模态模型通常采取“视觉转语言”的中转模式进行推理。
这种模式虽然借用了大语言模型强大的逻辑外壳,却造成了关键信息的流失:
凡是无法被词汇精准定义的视觉特征,都会在转化过程中被当作“噪声”丢弃。
例如,我们可以用文字描述“一辆红色汽车”,但却很难用语言完美复刻物体边缘的细微弧度、几何图形的精确交点或空间位置的微小偏移。
而正是这些“不可言说”的视觉细节,构成了BabyVision测评的核心,也成为了大模型无法逾越的障碍。
BabyVision将视觉推理能力细分为四个关键维度:
细粒度辨别:捕捉微小的视觉差异;
视觉追踪:对路径、线条及动态轨迹的持续跟踪;
空间感知:对三维物理结构与空间位置的理解;
视觉模式归纳:总结并应用视觉中的几何与逻辑规律。
研究总结出当前MLLM面临的四个典型挑战:
大模型往往会忽略那些难以用语言表述的视觉特征。比如微小的角度偏移或像素级的边缘变化,在模型眼里可能都被归类为“相似”。
即便表现最强的Gemini 3 Pro Preview,在处理拼图匹配任务时也因为无法精准匹配边缘形状而误选了D选项。
(标准答案:B)
人类通过“空间脑补”和边界比对瞬间完成的任务,AI却需要将其翻译成文字特征,这种高保真感知的缺失导致了失败。
模型在长距离空间任务中难以保持感知的一致性。例如在复杂的连线迷宫中,Gemini经常在交叉点处“迷路”,将不同的路径混淆。
这种错误在人类看来不可思议,但当视觉曲线被模型拆解为一连串“上下左右”的文字指令时,任何一个微小的指令偏差都会导致全盘皆输。
AI在处理从二维图像推断三维结构时表现吃力。它难以在脑海中进行“心理旋转”或视角转换。
(标准答案:A)
当图像被压缩为文本摘要后,被遮挡的物体和投影关系就会变得模糊,导致模型数错积木数量或判错形状。
视觉模式归纳要求从示例中提取通用规律。大模型往往只会简单地统计属性(如颜色、数量),而无法真正理解视觉元素之间的因果逻辑。
(标准答案:C)
面对上述瓶颈,研究提出了两条改进路径:基于可验证奖励的强化学习(RLVR)与生成式建模。
在Qwen3-VL-8B-Thinking上进行的RLVR微调实验显示,模型的整体准确率提升了4.8%,证明了显式推理能够弥补部分视觉感知的短板。
而生成式推理(BabyVision-Gen)则试图让AI像人一样,通过“画出思维过程”来解题。
测评显示,NanoBanana-Pro在该领域表现突出,能够生成连贯的解题轨迹。这表明“生成”本身可能就是一种更高形式的视觉推理。
未来的趋势非常明确:我们需要跳出“语言的舒适区”,通过原生多模态架构(如Bagel、Sora 2等)保持视觉信号的高保真,让AI真正学会在视觉空间中进行“思考”。
参考链接
[1]https://unipat.ai/blog/BabyVision
[2]https://arxiv.org/abs/2601.06521v1
本文由主机测评网于2026-04-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260433414.html