当前位置：首页 > 科技资讯 > 正文

商汤多模态模型突破：图文交错思维链引领AI新纪元

主机测评网
科技资讯
2026-04-22
238

商汤多模态模型突破：图文交错思维链引领AI新纪元多模态智能 AGI 商汤科技图文交错思维链第1张

在2025世界人工智能大会的璀璨舞台上，商汤科技自豪地发布了其最新的日日新V6.5多模态模型，该模型率先突破了“图文交错思维链”技术，成为国内首个集形象思维与图文交错思维于一体的商业级大模型。

不久前，商汤科技联合创始人、执行董事、首席科学家林达华先生以一篇深度长文《迈向多模态通用智能：商汤的思考》为我们系统阐释了多模态智能的底层逻辑、技术路径，以及破解“图文交错思维链”技术的关键。以下内容为文章摘录，在保持原意的基础上有所删减。

商汤多模态模型突破：图文交错思维链引领AI新纪元多模态智能 AGI 商汤科技图文交错思维链第2张

l 为何多模态是通往AGI的必经之路？

人工智能的核心目标是通过计算来构建智能。智能的核心是与外界（包括世界或他人）进行自主交互的能力。语言只是人类智能演进过程中的一种产物，并非智能的本源；语言是描述世界的工具，但并非世界本身。因此，仅靠语言模型无法构建真正意义上的AGI。

大模型浪潮首先由语言模型引领，得益于海量语料的积累。这是向AGI迈进的重要一步，但并非终点。人工智能若要具备通用性，必须能够像人类一样通过感官接收信息。因此，多模态信息感知与处理的能力是AGI的核心要求，也是通往AGI的必由之路。

在实际场景中，要实现完整价值，也离不开对不同模态信息的有效处理、融合分析和判断。因此，从商业应用的角度看，多模态也是我们的必然选择。

l 商汤如何构建多模态智能？

从根本上说，人工智能的发展是数据驱动的，其能力边界由数据定义。每一次人工智能的飞跃，都源于数据边界的突破。

智能的演进是一个渐进的过程，将经历四次破壁：Transformer实现了长序列建模；语言和视觉的会合实现了多模态理解；逻辑思维和形象思维的结合实现了真正的多模态推理；最终，智能体将突破数字空间与物理空间的界限，实现与真实世界的交互。

商汤沿着智能阶段演进的认知展开技术研发布局，一步步推动对智能边界的探索。早在2023年初就推出了我国首个多模态模型，迈出了多模态智能探索的重要一步。2024年突破了原生多模态融合训练技术，成为国内最早将语言模型和图文多模态模型融合为一个模型的厂商。最近，我们在多模态推理上取得重要进展，实现了图文交错的思维链。在此基础上训练的日日新6.5具备了真正的多模态思考能力，综合推理性能显著提升。同时，我们展开了开悟世界模型的探索，打通了数字空间和物理空间连接的通道。

l 商汤为何选择原生多模态？

多模态模型的训练有两种典型方式：

1. 适应训练：给定一个已训练好的大语言模型和经过预训练的视觉编码器，在后训练阶段通过对视觉编码器和投影器的微调，实现视觉和语言表征的对齐。这是国内多模态大模型常用的方式，其优势在于能以较低成本快速获得多模态能力。

2. 原生训练：在预训练阶段就融合多种模态的数据进行训练，因此模型从“原生”开始就具备多模态能力。以Google和OpenAI为代表的顶尖机构采用这种方式。

经过几个月的实验，我们于2024年明确结论并确定了融合模型的技术路径：在预训练阶段开始进行多模态融合训练，最终形成一个统一的原生多模态模型，不再生产单独的语言模型。

我们在2024年第三季度完成了融合训练的数据配方和训练超参的验证，在第四季度完成了第一版千亿参数级别的融合多模态模型训练。这个模型在国内两个权威的第三方评测平台OpenCompass（司南）和SuperCLUE上面都位居国内模型之首。

从日日新6.0开始，包括在今年世界人工智能大会（WAIC）上面发布的日日新6.5都只有多模态模型而没有单独的语言模型。

l 多模态推理的挑战及如何构建图文交错思维链

大模型进行推理的核心途径是“思维链”（Chain-of-Thought）。由于人工构造成本高且难以规模化，思维链主要通过算法自动构造。

到2025年，主流的多模态模型已经具备了一定的推理能力。但主流多模态模型的推理思维链还是纯文本的。通过多模态理解的能力将输入的图像转换为文本描述，然后利用语言推理模型进行后续推理。然而，人的思考过程是真正意义的跨模态的，是逻辑思维和形象思维的结合。

逻辑思维和形象思维的结合主要通过图文交错思维链实现。商汤选择了两步走的路径：第一步通过调用工具进行图像编辑的方式构建图文交错思维链；第二步基于多模态理解生成统一的机制实现内生的图文混合思考。

服务器教程高防服务器性价比vps

本文由主机测评网于2026-04-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260439580.html

商汤多模态模型突破：图文交错思维链引领AI新纪元

加拿大AI独角兽Cohere新融资与人事变动，加速企业私有化部署

特斯拉Dojo项目终结：资源重组与行业影响解析

商汤多模态模型突破：图文交错思维链引领AI新纪元

加拿大AI独角兽Cohere新融资与人事变动，加速企业私有化部署

特斯拉Dojo项目终结：资源重组与行业影响解析

相关文章