当前位置：首页 > 科技资讯 > 正文

FSDrive：时空视觉链式思考引领自动驾驶可视化推理新范式

主机测评网
科技资讯
2026-01-05
1018

在自动驾驶系统中，多模态大语言模型（MLLM）逐渐成为端到端“视觉-语言-动作”（VLA）范式的核心，但其推理链通常依赖文字或符号作为中介，导致时空关系模糊和细粒度信息丢失。FSDrive（FutureSightDrive）创新性地提出了“时空视觉链式思考”（Spatio-Temporal Chain-of-Thought），使模型能够直接“以图像进行思考”，将统一的未来图像帧作为中间推理步骤，融合未来场景与感知结果实现可视化推理。该方法无需改变原有MLLM架构，仅通过“词表扩展与自回归视觉生成”激活图像生成能力，并结合“由易到难”的渐进式视觉CoT注入物理先验。模型同时扮演“世界模型”预测未来和“逆动力学模型”规划轨迹的双重角色。

FSDrive：时空视觉链式思考引领自动驾驶可视化推理新范式自动驾驶多模态大模型时空视觉CoT 轨迹规划第1张

项目主页链接：https://miv-xjtu.github.io/FSDrive.github.io/
论文地址：https://arxiv.org/abs/2505.17685
代码仓库：https://github.com/MIV-XJTU/FSDrive

多模态大语言模型凭借其丰富的世界知识和可解释推理能力，正加速融入自动驾驶的端到端VLA范式。然而，现有方法多依赖于离散文本CoT（如规则描述或坐标），这本质上是对视觉信息的高度符号化压缩，存在跨模态语义鸿沟和时空关系表征不足的缺陷。

FSDrive：时空视觉链式思考引领自动驾驶可视化推理新范式自动驾驶多模态大模型时空视觉CoT 轨迹规划第2张

核心挑战：对于与物理世界深度交互的自动驾驶，思考过程应更接近“模拟与想象”的视觉推演，而非纯粹符号逻辑？

FSDrive引入“时空视觉CoT”，将未来场景与感知结果（如车道线和3D检测框）统一生成到一张未来图像帧中，作为中间推理步骤。一方面，普通未来帧承载时序演化信息；另一方面，“红色车道线与3D框”提供可驾驶区域和关键动态物体的空间先验，从而在视觉域内完成因果推断与决策规划。

关键创新点：

1) 统一的“视觉中介”替代文字或表格中介，消除跨模态语义鸿沟；

2) 以极小代价在现有MLLM上“激活”图像生成能力：仅通过扩展词表引入VQ类视觉token，无需大规模架构改动或海量训练；

3) 渐进式视觉CoT：先生成具有“物理约束”的粗粒度感知图（车道线/3D框），再生成细节丰富的未来帧，显式注入物理合理性。

价值体现：保持端到端简洁链路和可解释可视化推理，同时可大规模利用无标注视频数据学习世界演化规律。

方法论

FSDrive：时空视觉链式思考引领自动驾驶可视化推理新范式自动驾驶多模态大模型时空视觉CoT 轨迹规划第3张

FSDrive整体框架：

输入：环视图像与任务指令；输出：统一未来帧（含红色车道线/3D框叠加）作为时空CoT，以及最终轨迹。
双角色：模型先作为“世界模型”生成未来统一帧（时空CoT），再作为“逆动力学模型”依据当前观测与未来预测进行轨迹规划。

统一预训练范式：理解与生成并重

理解保持：沿用VQA任务（如OmniDrive-nuScenes/DriveLM风格），维持原MLLM的语义理解能力。
生成激活：不改动MLLM结构，仅将VQ-VAE/MoVQGAN等的视觉token并入LLM词表，扩展到“图文共享词汇”。随后以自回归下一token预测方式直接生成图像token，并由detokenizer还原像素。
数据高效：相较部分统一理解-生成方法，所需数据量约为其0.3%，且不需从零训练或复杂解码器融合。

渐进式视觉CoT（从物理先验到细节补全）