当Ilya Sutskever宣布“纯靠Scaling Law的时代已经结束”,并强调“大模型的未来并非单纯规模更大,而是架构需变得更聪明”时,整个AI界都意识到了范式转移的到来。
过去几年,行业似乎沉迷于通过更多数据、更大参数和更强算力来构建更强大的模型,但这条路正逼近收益递减的临界点。
Ilya和LeCun等顶尖AI专家不约而同地指出:真正的突破,必须源自架构层面的根本性创新,而非对现有Transformer流水线的简单修改。
就在此时,一个来自中国研究团队的新物种应运而生:
全球首个可大规模落地的开源原生多模态架构(Native VLM),名曰NEO。
△
主流的多模态大模型,如GPT-4V、Claude 3.5等,其底层逻辑本质上是拼接。
即将一个预训练好的视觉编码器(如ViT)通过一个小型投影层,连接到一个强大的语言模型上。
这种模块化的方式虽然实现了多模态,但视觉和语言始终是两条平行线,仅在数据层面被强行结合。
而来自商汤科技与南洋理工大学等高校的联合研究,从根上颠覆了这一切。
在NEO中,大模型不仅能看、会说,而且天生就理解视觉和语言是一体两面的。
更惊人的是,凭借这种原生多模态架构,NEO仅用十分之一的训练数据,就在多项关键评测中追平甚至超越了那些依赖海量数据和复杂模块堆砌的旗舰级对手!
在深入了解原理之前,我们需要理解多模态的现状。
当前主流的模块化架构存在三大难以跨越的技术鸿沟。
首先是效率鸿沟。
模块化模型的训练流程极其复杂,成本高且各阶段可能引入新误差;视觉和语言的知识被割裂在不同的“房间”,需要不断“传纸条”才能勉强协作。
其次是能力鸿沟。
视觉编码器在设计之初就带有强烈的归纳偏置,面对需要捕捉细微纹理、复杂空间关系或任意长宽比的场景时显得力不从心。
最后是融合鸿沟。
视觉和语言的映射停留在简单表层,无法触及深层次的语义对齐。
因此,NEO背后的研究团队从第一性原理出发,直接打造一个视觉与语言从诞生之初就血脉相连的统一模型——没有视觉模块和语言模块的区分,只有一个统一的、专为多模态而生的大脑。
第一,原生图块嵌入(Native Patch Embedding)。
传统模型常预先采用离散的tokenizer或连接vision encoder压缩图像信息或语义token。
NEO则直接摒弃这一步,设计了一个轻量级的图块嵌入层,通过两层卷积神经网络,直接从像素出发构建连续的、高保真的视觉表征。
第二,原生三维旋转位置编码(Native-RoPE)。
位置信息对理解任何序列至关重要。传统模型要么给所有模态用同一个一维位置编码,要么简单拼接,显然无法满足不同模态的天然结构。
第三,原生多头注意力(Native Multi-Head Attention)。
NEO采取的方法是在一个统一的注意力框架下让两种模式并存。处理文本token时遵循自回归因果注意力;处理视觉token时采用全双向注意力。
纵观结果,最直观的体现就是数据效率——NEO仅使用了3.9亿个图像文本对进行训练。
本文由主机测评网于2026-05-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545747.html