当前位置:首页 > 科技资讯 > 正文

FSDrive:时空视觉链式思考引领自动驾驶可视化推理新范式

在自动驾驶系统中,多模态大语言模型(MLLM)逐渐成为端到端“视觉-语言-动作”(VLA)范式的核心,但其推理链通常依赖文字或符号作为中介,导致时空关系模糊和细粒度信息丢失。FSDrive(FutureSightDrive)创新性地提出了“时空视觉链式思考”(Spatio-Temporal Chain-of-Thought),使模型能够直接“以图像进行思考”,将统一的未来图像帧作为中间推理步骤,融合未来场景与感知结果实现可视化推理。该方法无需改变原有MLLM架构,仅通过“词表扩展与自回归视觉生成”激活图像生成能力,并结合“由易到难”的渐进式视觉CoT注入物理先验。模型同时扮演“世界模型”预测未来和“逆动力学模型”规划轨迹的双重角色。

FSDrive:时空视觉链式思考引领自动驾驶可视化推理新范式 自动驾驶  多模态大模型 时空视觉CoT 轨迹规划 第1张

  • 项目主页链接:https://miv-xjtu.github.io/FSDrive.github.io/
  • 论文地址:https://arxiv.org/abs/2505.17685
  • 代码仓库:https://github.com/MIV-XJTU/FSDrive

多模态大语言模型凭借其丰富的世界知识和可解释推理能力,正加速融入自动驾驶的端到端VLA范式。然而,现有方法多依赖于离散文本CoT(如规则描述或坐标),这本质上是对视觉信息的高度符号化压缩,存在跨模态语义鸿沟和时空关系表征不足的缺陷。

FSDrive:时空视觉链式思考引领自动驾驶可视化推理新范式 自动驾驶  多模态大模型 时空视觉CoT 轨迹规划 第2张

核心挑战:对于与物理世界深度交互的自动驾驶,思考过程应更接近“模拟与想象”的视觉推演,而非纯粹符号逻辑?

FSDrive引入“时空视觉CoT”,将未来场景与感知结果(如车道线和3D检测框)统一生成到一张未来图像帧中,作为中间推理步骤。一方面,普通未来帧承载时序演化信息;另一方面,“红色车道线与3D框”提供可驾驶区域和关键动态物体的空间先验,从而在视觉域内完成因果推断与决策规划。

关键创新点:

1) 统一的“视觉中介”替代文字或表格中介,消除跨模态语义鸿沟;

2) 以极小代价在现有MLLM上“激活”图像生成能力:仅通过扩展词表引入VQ类视觉token,无需大规模架构改动或海量训练;

3) 渐进式视觉CoT:先生成具有“物理约束”的粗粒度感知图(车道线/3D框),再生成细节丰富的未来帧,显式注入物理合理性。

价值体现:保持端到端简洁链路和可解释可视化推理,同时可大规模利用无标注视频数据学习世界演化规律。

方法论

FSDrive:时空视觉链式思考引领自动驾驶可视化推理新范式 自动驾驶  多模态大模型 时空视觉CoT 轨迹规划 第3张

FSDrive整体框架:

  • 输入:环视图像与任务指令;输出:统一未来帧(含红色车道线/3D框叠加)作为时空CoT,以及最终轨迹。
  • 双角色:模型先作为“世界模型”生成未来统一帧(时空CoT),再作为“逆动力学模型”依据当前观测与未来预测进行轨迹规划。

统一预训练范式:理解与生成并重

  • 理解保持:沿用VQA任务(如OmniDrive-nuScenes/DriveLM风格),维持原MLLM的语义理解能力。
  • 生成激活:不改动MLLM结构,仅将VQ-VAE/MoVQGAN等的视觉token并入LLM词表,扩展到“图文共享词汇”。随后以自回归下一token预测方式直接生成图像token,并由detokenizer还原像素。
  • 数据高效:相较部分统一理解-生成方法,所需数据量约为其0.3%,且不需从零训练或复杂解码器融合。

渐进式视觉CoT(从物理先验到细节补全)

  • 先推理未来车道线(Ql):指示可行驶区域,注入静态物理约束;
  • 再推理未来3D检测(Qd):刻画关键动态体的运动模式,注入动态约束;
  • 最后在上述约束下生成完整未来帧(Qf):补全细节、提升真实性与一致性。
  • 训练阶段采用该“由易到难”顺序,推断阶段将三者整合为“统一未来帧”以提高效率。

时空视觉CoT用于规划

  • 将“普通未来帧(时间演化)+红色车道线/3D框(空间结构)”合成为统一图像中介QCoT,直接作为中间推理步骤输入规划头。模型在视觉域完成因果链条的传递,显著减少因符号化导致的语义缺失与二义性。
  • 表达式:基于It与QCoT自回归生成未来轨迹Wt,兼容导航指令与自车状态(可选)。

训练策略

  • 初始化:可从任一现成MLLM(如Qwen2-VL-2B、LLaVA-7B)出发;冻结视觉编码器,微调LLM主体。
  • 阶段一(统一预训练):混合训练VQA、未来帧生成与渐进式感知生成(车道线/3D框),大量使用nuScenes无标注视频用于未来帧预测。
  • 阶段二(SFT):联合优化场景理解(DriveLM GVQA)与轨迹规划(nuScenes,含统一时空CoT作为中间步骤),通过不同提示词调用任务专属推理。
  • 实现要点:MoVQGAN视觉码本并入词表,detokenizer回像素;预训练32轮,SFT12轮;仅LLM全量微调。

实验验证

FSDrive:时空视觉链式思考引领自动驾驶可视化推理新范式 自动驾驶  多模态大模型 时空视觉CoT 轨迹规划 第4张

端到端轨迹规划

相比同时具备视觉生成的Doe-1(Lumina-mGPT-7B),FSDrive在不使用自车状态时取得更低L2与更低碰撞:

  • ST-P3平均L2:0.53 vs 0.70;碰撞率:0.19 vs 0.21(基于Qwen2-VL-2B)。
  • UniAD平均L2:0.96 vs 1.26;碰撞率:0.40 vs 0.53。

与LLaVA-7B系列下的近期方法(如OminiDrive、RDA-Driver)相比,FSDrive在相同设置下展现出强竞争力,说明框架可广泛迁移到主流MLLM。

FSDrive:时空视觉链式思考引领自动驾驶可视化推理新范式 自动驾驶  多模态大模型 时空视觉CoT 轨迹规划 第5张

未来帧生成质量(FID)

在128×192分辨率下,FSDrive(自回归)FID=10.1,优于多数扩散式世界模型(如GEM 10.5)并显著优于Doe-1(15.9),兼顾实时性与质量。

FSDrive:时空视觉链式思考引领自动驾驶可视化推理新范式 自动驾驶  多模态大模型 时空视觉CoT 轨迹规划 第6张

场景理解(DriveLM GVQA)

Final Score 0.57,超过OminiDrive(0.56)、Cube-LLM等;多项语言生成指标与多选准确率(0.72)均表现稳健,表明“理解+生成”统一预训练的有效性。

FSDrive:时空视觉链式思考引领自动驾驶可视化推理新范式 自动驾驶  多模态大模型 时空视觉CoT 轨迹规划 第7张

定性分析

在错误导航指令下,FSDrive可通过“观察+未来预测”的视觉推理纠偏路径,降低潜在碰撞;体现其“逆动力学”能力与可解释性。

总结与展望

本文提出FSDrive:以“统一的时空视觉CoT”作为中间推理,打通未来场景预测与感知结果的视觉表达,让VLA在视觉域内完成因果推理与轨迹规划。

方法无需改动原MLLM结构,通过扩展词表与自回归训练即可激活图像生成;配合“由易到难”的渐进式视觉CoT,显式注入物理约束,提升未来预测的真实性与一致性。

在规划、生成与理解三大任务的系统验证显示:FSDrive以更低的数据/算力成本实现强竞争力甚至SOTA的开放回路表现,并显著降低碰撞风险,推动自动驾驶从“符号推理”走向“视觉推理”。

局限与展望:当前为实时性考虑主要生成前视未来帧,未来可扩展至环视统一预测;同时,随模型落地需重视安全、隐私与监管等伦理合规问题,确保技术向善与可靠部署。