当前位置:首页 > 科技资讯 > 正文

商汤多模态模型突破:图文交错思维链引领AI新纪元

商汤多模态模型突破:图文交错思维链引领AI新纪元 多模态智能 AGI 商汤科技 图文交错思维链 第1张

在2025世界人工智能大会的璀璨舞台上,商汤科技自豪地发布了其最新的日日新V6.5多模态模型,该模型率先突破了“图文交错思维链”技术,成为国内首个集形象思维与图文交错思维于一体的商业级大模型。

不久前,商汤科技联合创始人、执行董事、首席科学家林达华先生以一篇深度长文《迈向多模态通用智能:商汤的思考》为我们系统阐释了多模态智能的底层逻辑、技术路径,以及破解“图文交错思维链”技术的关键。以下内容为文章摘录,在保持原意的基础上有所删减。

商汤多模态模型突破:图文交错思维链引领AI新纪元 多模态智能 AGI 商汤科技 图文交错思维链 第2张

l 为何多模态是通往AGI的必经之路?

人工智能的核心目标是通过计算来构建智能。智能的核心是与外界(包括世界或他人)进行自主交互的能力。语言只是人类智能演进过程中的一种产物,并非智能的本源;语言是描述世界的工具,但并非世界本身。因此,仅靠语言模型无法构建真正意义上的AGI。

大模型浪潮首先由语言模型引领,得益于海量语料的积累。这是向AGI迈进的重要一步,但并非终点。人工智能若要具备通用性,必须能够像人类一样通过感官接收信息。因此,多模态信息感知与处理的能力是AGI的核心要求,也是通往AGI的必由之路。

在实际场景中,要实现完整价值,也离不开对不同模态信息的有效处理、融合分析和判断。因此,从商业应用的角度看,多模态也是我们的必然选择。

l 商汤如何构建多模态智能?

从根本上说,人工智能的发展是数据驱动的,其能力边界由数据定义。每一次人工智能的飞跃,都源于数据边界的突破。

智能的演进是一个渐进的过程,将经历四次破壁:Transformer实现了长序列建模;语言和视觉的会合实现了多模态理解;逻辑思维和形象思维的结合实现了真正的多模态推理;最终,智能体将突破数字空间与物理空间的界限,实现与真实世界的交互。

商汤沿着智能阶段演进的认知展开技术研发布局,一步步推动对智能边界的探索。早在2023年初就推出了我国首个多模态模型,迈出了多模态智能探索的重要一步。2024年突破了原生多模态融合训练技术,成为国内最早将语言模型和图文多模态模型融合为一个模型的厂商。最近,我们在多模态推理上取得重要进展,实现了图文交错的思维链。在此基础上训练的日日新6.5具备了真正的多模态思考能力,综合推理性能显著提升。同时,我们展开了开悟世界模型的探索,打通了数字空间和物理空间连接的通道。

l 商汤为何选择原生多模态?

多模态模型的训练有两种典型方式:

1. 适应训练:给定一个已训练好的大语言模型和经过预训练的视觉编码器,在后训练阶段通过对视觉编码器和投影器的微调,实现视觉和语言表征的对齐。这是国内多模态大模型常用的方式,其优势在于能以较低成本快速获得多模态能力。

2. 原生训练:在预训练阶段就融合多种模态的数据进行训练,因此模型从“原生”开始就具备多模态能力。以Google和OpenAI为代表的顶尖机构采用这种方式。

经过几个月的实验,我们于2024年明确结论并确定了融合模型的技术路径:在预训练阶段开始进行多模态融合训练,最终形成一个统一的原生多模态模型,不再生产单独的语言模型。

我们在2024年第三季度完成了融合训练的数据配方和训练超参的验证,在第四季度完成了第一版千亿参数级别的融合多模态模型训练。这个模型在国内两个权威的第三方评测平台OpenCompass(司南)和SuperCLUE上面都位居国内模型之首。

从日日新6.0开始,包括在今年世界人工智能大会(WAIC)上面发布的日日新6.5都只有多模态模型而没有单独的语言模型。

l 多模态推理的挑战及如何构建图文交错思维链

大模型进行推理的核心途径是“思维链”(Chain-of-Thought)。由于人工构造成本高且难以规模化,思维链主要通过算法自动构造。

到2025年,主流的多模态模型已经具备了一定的推理能力。但主流多模态模型的推理思维链还是纯文本的。通过多模态理解的能力将输入的图像转换为文本描述,然后利用语言推理模型进行后续推理。然而,人的思考过程是真正意义的跨模态的,是逻辑思维和形象思维的结合。

逻辑思维和形象思维的结合主要通过图文交错思维链实现。商汤选择了两步走的路径:第一步通过调用工具进行图像编辑的方式构建图文交错思维链;第二步基于多模态理解生成统一的机制实现内生的图文混合思考。