华科小米最新的UniDriveVLA:统一理解、感知和规划

张开发
2026/4/15 13:07:14 15 分钟阅读

分享文章

华科小米最新的UniDriveVLA:统一理解、感知和规划
点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | Yongkang Li等编辑 | 自动驾驶之心本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球论文标题UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving作者Yongkang Li, Lijun Zhou, Sixu Yan, Bencheng Liao, Tianyi Yan, Kaixin Xiong, Long Chen, Hongwei Xie, Bing Wang, Guang Chen, Hangjun Ye, Wenyu Liu, Haiyang Sun, Xinggang Wang华中科技大学 小米汽车 澳门大学论文链接https://arxiv.org/abs/2604.02190代码链接https://github.com/xiaomi-research/unidrivevla1. 从人类驾驶看自动驾驶的核心挑战1.1 人类驾驶的认知模型感知与理解双轮驱动图1人类驾驶认知模拟当你坐在驾驶座上手握方向盘时大脑并非在处理一堆平行的杂乱信息。实际上人类的驾驶认知是由空间感知和语义理解双重维度共同驱动的闭环系统如图所示。空间之维物理世界的几何建模Spatial Perception这是驾驶的“硬核基础”。你的大脑在实时进行精确的几何测算前车距离有多远、周围车辆的相对速度是多少、自车在三维空间中处于什么位置、以及潜在的视野盲区在哪里。这种对物理环境高度准确、低延迟的感知能力构成了安全驾驶的物理底座。语义之维交通场景的深度洞察Semantic Understanding驾驶不仅是“看见”更是“看懂”这是驾驶的“认知高地”。你能够读懂“学校区域”标志背后的时效性含义并主动减速能够通过邻车轻微的偏移预判其变道意图甚至能理解交警的手势或行人的眼神博弈。这种能力依赖于你长期积累的丰富世界知识与逻辑推理能力本质上是一种处理非结构化、长尾场景的高级类认知智能。动作汇聚点决策规划Decision Planning空间感知提供了物理世界的“几何坐标”语义理解提供了场景背后的“逻辑因果”。基于这两大维度的协同输入大脑最终生成决策——是加速通过、减速避让还是精准变道。这不仅要满足安全底线还要兼顾通行效率与舒适性是一个典型的高频连续动作生成过程。图2自动驾驶架构的演进图片修改自 Senna 论文1.2 端到端自动驾驶的崛起与局限让机器具备人类驾驶员那样的统一认知与决策能力一直是自动驾驶的核心愿景。早期的主流方法采用模块化Modular Pipeline架构将感知、预测、规划等环节拆分为独立模块逐级传递信息。这种设计虽然工程可控但模块间不可避免地会产生信息损耗。为此端到端End-to-End, E2E自动驾驶如图2a所示应运而生。代表性工作如 UniAD、VAD通过统一的神经网络将感知模块与规划模块串联直接学习从图像序列到驾驶轨迹的映射缓解了任务间的信息瓶颈。然而传统端到端模型主要依赖几何与视觉特征的模式匹配当面对罕见的“长尾场景”如复杂的交通博弈、异常的行人行为时往往因为缺乏常识推理与深度的语义理解能力而显得捉襟见肘。1.3 VLM 时代的演进与单系统 VLA 的核心痛点视觉-语言大模型VLMs的爆发为解决“长尾场景”提供了全新的钥匙。VLM 拥有庞大的世界知识和强大的零样本zero-shot泛化能力。将这种“认知智能”引入自动驾驶行业内演化出了两种主流范式双系统架构Dual System VLA如图2b所示代表工作如 DriveVLM、Senna 采用了“快慢双系统”的分工。VLM 作为“慢大脑”负责高维度的决策制定如输出“加速并右转”的文本指令而传统端到端模型作为“快大脑”接收指令并负责底层的精确轨迹规划。这种方法虽然一定程度上弥补了认知短板但系统整体割裂高低层信息之间依然存在无法打通的壁垒。单系统架构Single System VLA为了实现真正的统一认知行业开始向图2c所示的单系统演进代表作如 EMMA、Alpamayo-R1。这类架构试图用单一的视觉语言模型直接处理图像序列同时输出语义理解指令和最终的驾驶轨迹实现了真正意义上的视觉-语言-动作Vision-Language-Action, VLA闭环。然而这种单系统 VLA 很快触碰到了一个致命瓶颈★模型极难在“语义推理能力”与“精确空间感知能力”之间取得平衡。由于 VLM 主要在互联网 2D 图文数据上预训练直接用于驾驶会导致精确的 3D 空间建模能力严重不足。但如果试图强行引入 3D 空间特征来弥补这一短板往往又会“按下葫芦浮起瓢”不可避免地破坏 VLM 原本强大的原生语义推理能力。如何在统一的 VLA 框架内既不损伤大模型的“高智商”语义推理又能赋予它“好视力”空间感知这正是当前自动驾驶领域面临的最大困境。2. 空间感知 vs 语义推理VLA 模型的两难困境图3自动驾驶 VLA 范式对比。aVanilla 2D VLA 缺乏空间感知能力而 b3D-enhanced VLA 在共享参数下联合优化会导致语义推理能力退化。cUniDriveVLA 通过专家解耦同时实现了两者的提升。2.1 范式演进中的“得与失”将视觉-语言大模型VLM应用于自动驾驶任务时我们遇到了一个极为棘手的瓶颈在空间感知与语义推理之间面临着关键的权衡困境Perception-Reasoning Dilemma。结合上述的现有范式对比图图 a 和图 b可以清晰地看到这种“顾此失彼”的妥协妥协一原生 2D VLA 空间感知受限图 a直接采用原生的 2D VLM如 EMMA、AutoVLA能够保留模型强大的原生语义推理能力。然而由于这些基础模型主要是在互联网规模的 2D 图文数据上进行预训练的它们本身并非为明确的 3D 空间感知而设计。这就导致系统在复杂的驾驶场景中空间感知能力极为有限。妥协二3D 增强 VLA 导致语义退化图 b为了弥补空间感知的短板近期的工作如 OpenDriveVLA、Percept-WAM尝试通过将 3D 空间表征如智能体、地图、运动 Token直接引入到 VLM 中。虽然这种做法确实增强了模型的空间感知能力但代价却是牺牲并削弱了 VLM 原生的语义推理能力。2.2 矛盾的深层根源共享参数下的“表征干扰”为什么给模型“补充”了 3D 知识反而会导致其推理能力退化我们在研究中发现这一困境的本质并不在于“引入了 3D 空间表征”这一动作本身而在于在共享的模型参数内对空间感知和语义推理进行了耦合优化。在一个共享权重的解码器Shared-Weight Decoder中语义 Token 和空间感知 Token 需要在同一个参数空间中被联合建模。这种强耦合会引发严重的表征干扰Representation Interference。通过余弦相似度分析我们发现随着网络层数的加深空间特征和语义特征会逐渐纠缠导致特征坍缩为几乎相同的表征相似度逼近 1从而破坏了 VLM 原本独立、强大的推理能力。现有的一些方法试图通过显式对齐 2D/3D 特征与语言表征来缓解这一冲突。然而由于这类对齐数据的规模远远小于 VLM 预训练所使用的互联网级语料库这种对齐只能部分缓解干扰根本无法彻底消除冲突。基于上述理论分析一条破局之路在我们的探索中变得清晰起来必须在优化过程中将空间感知与语义推理的目标进行解耦Decoupling。这也正是促使我们团队提出 UniDriveVLA图 c混合 TransformerMoT专家架构的底层逻辑。图4表征干扰与模型性能分析。a在共享权重解码器中语义与感知特征在深层的余弦相似度逼近 1发生严重的特征坍缩而 MoT 架构始终保持低相似度实现了特征解耦。b得益于优化冲突的缓解UniDriveVLA 在感知、推理和规划的多项指标上均显著优于共享权重基线。3. UniDriveVLA专家解耦各尽其才3.1 核心思路走向 Mixture-of-Transformers (MoT)在前文中我们提到在共享参数下强行融合空间感知与语义推理会引发灾难性的“表征干扰”。为了彻底打破这种零和博弈我们团队提出了UniDriveVLA。其核心思路非常直接既然异构任务在同一个网络里会“打架”那我们就为它们分配各自专属的“办公室”。为此我们将Mixture-of-Transformers (MoT)架构创新性地引入自动驾驶 VLA 模型设计了包含理解、感知与动作的三专家协同方案。异构的特征 Token 不再被迫共享同一个参数空间而是进入专属的专家路径中独立优化同时通过精妙的联合注意力机制它们依然能保持紧密的跨域沟通。图5UniDriveVLA 整体架构。模型包含驾驶理解、场景感知与动作规划三个专属专家异构 Token 被分配到特定的专家路径中通过掩码联合注意力Masked Joint Attention进行协调从而在单一框架内统一了理解、感知与规划。3.2 三专家架构与掩码联合注意力详解在 UniDriveVLA 的运行过程中多视角图像、历史轨迹与导航指令会被转化为三组异构 Token分别交给三位“专职专家”处理驾驶理解专家Understanding Expert接收由视觉-语言主干网络从视觉观察和驾驶指令中提取的理解 Token负责场景描述、意图推断等高维语义任务。场景感知专家Perception Expert接收从视觉特征中提取的感知 Token用于编码空间先验负责构建精确的 3D 几何表征。动作规划专家Action Expert接收动作 Token。这里的动作输入是通过标准的高斯噪声与目标速度序列进行流匹配Flow Matching插值构建的专职负责面向规划的连续轨迹生成。专属参数空间的投影物理隔离为了实现彻底的解耦在每一个 MoT 层中这三组 Token 首先会被投影到各自专家专属的 Query、Key、Value 参数子空间中这一步极其关键它确保了理解、感知与动作在进入交互环节前完全处于独立的优化轨迹上从根源上斩断了参数共享带来的表征干扰。掩码联合注意力Masked Joint Attention协作而不干扰三位专家在独立提取特征后需要进行“开会协同”。我们将所有专家的表征按“理解-感知-动作”的顺序拼接成全局矩阵随后在全局计算注意力。为了防止异构特征在这一步发生互相污染我们引入了**掩码矩阵**来严格控制可见性图6掩码联合注意力Masked Joint Attention示意图。掩码矩阵严格控制了信息的单向流动。计算完成后特征被重新拆分为、和。掩码矩阵的控制逻辑极具巧思语义防线理解 Token 遵循严格的因果掩码Causal Masking它们绝对看不到后续的感知或动作 Token。这完美保留了预训练 VLM 原生的语义推理能力。单向赋能感知 Token 可以关注到前面的理解 Token从而获取强大的高级语义上下文。而动作 Token 则聚合了前置的所有语义与空间信息做出最优全局规划。经过注意力交互后每个专家组还会通过专属的输出投影、归一化和前馈网络FFN进行更新最终这三个分支在一个统一的框架内进行联合优化损失函数清晰解耦为自回归语言损失、结构化感知损失与流匹配动作生成损失。在动作规划的损失设计上我们参考了 Hyper Diffusion PlannerHPP为引入了轨迹与速度的混合损失Hybrid Loss以同时兼顾预测路径的准确性与微观运动的平滑性3.3 稀疏空间感知范式直接从 2D 提取 3D 先验与闭环“语义注魂”在引入空间感知能力时我们摒弃了近期 VLA 模型如 OmniDrive、OpenDriveVLA常用的方法——将密集的鸟瞰图BEV特征强行塞入大模型。因为密集的 3D 特征不仅带来巨大计算冗余其数据分布与 VLM 预训练的 2D 图文分布差异过大极易引发大模型的认知崩溃。相反UniDriveVLA直接从多尺度的 2D 视觉特征中构建稀疏的空间感知。这些投影后的视觉特征作为几何凭证支撑起了一个统一的基于查询Query-based的感知模块。我们不再为每个感知任务分配孤立的预测头而是联合对 3D 目标检测、在线建图、自车状态估计和运动预测进行统一建模。硬核的稀疏更新管线特定任务的稀疏查询Queries首先通过数据集级别的 K-Means 聚类从实例库中初始化。随后这些查询会经历一系列复杂的网络更新环节temporal interaction、intra-task reasoning、inter-task communication、deformable feature aggregation以及 task-wise refinement。通过这条管线感知分支完美捕获了时序动态、任务特定结构以及跨任务的依赖关系。同时占据栅格Occupancy被建模为一个辅助的潜在分支。具体而言我们引入了专门的 Occ query这些 query 在经过 Perception Expert 的深度处理与交互后会再次通过一个专属的Occ VAE decoder进行解码从而得到最终的 3D 占据栅格输出。这种设计使得感知专家能够全面覆盖异构但又相互支撑的 3D 任务。“语义注魂”的完整闭环更重要的是我们赋予了初级感知结果“语义灵魂”。为了在保留 VLM 原生推理行为的同时用高层语义丰富稀疏感知我们并没有把感知模块当作一个单次的、黑盒的几何提取器。我们将“第一阶段first-pass”的检测、建图、自车、运动及占据栅格的感知输出整体“提升Lift”投影到感知专家的隐藏空间中。在这里它们通过前述的“掩码联合注意力”机制去选择性地吸收理解专家的语义上下文。吸收了语义之后最关键的一步是这些特征会被再次投影回稀疏感知空间并由后续的感知解码器subsequent perception decoder进行二次细化。这一套“提取-升维注魂-降维细化”的闭环机制使得 UniDriveVLA 产出的不仅仅是冷冰冰的几何数据而是“语义增强的感知输出semantically enriched perception outputs”。这不仅让感知结果在空间上绝对精准更具备了强大的高层逻辑对齐能力为下游的动作规划提供了天花板级别的输入保障。3.4 三阶段渐进训练克制且精准的能力注入一个复杂的异构三专家系统如果混在一起从头训练极易引发大模型常识的灾难性遗忘或梯度崩溃。为了让模型稳步获得感知与规划能力同时死死守住 VLM 的语义底盘我们设计了极其克制的三阶段渐进训练策略第一阶段大模型语义锚定本阶段的核心目标是让 VLM 适应驾驶领域的认知。我们构建了包含驾驶专用 VQA 数据与通用多模态数据的混合训练集并刻意将驾驶与通用数据的采样比例控制在 3:7。这种以通用数据为主导的策略是为了死死“锚定”基础大模型的认知泛化底盘。第二阶段受控的联合优化在这一阶段我们开始引入 3D 检测、在线建图、占据预测等空间感知任务并结合流匹配轨迹生成进行全面联合训练。为了防止这一阶段的结构化监督信号破坏语义能力我们祭出了极为克制的操作不仅对语言模型应用了 **LoRA (Low-Rank Adaptation)**更是将 VLM 参数的基础学习率下调 50%。通过抑制激进的梯度更新以最温和的方式向模型注入空间感知能力。第三阶段感知与规划的终极专精在最后冲刺阶段我们彻底冻结了视觉-语言模型VLM的主干。我们转而全量微调“场景感知专家”和“动作规划专家”并在此阶段额外引入了“运动预测Motion Prediction”目标。这一步剥离了语言建模的负担为动作专家提供了强大的动态环境先验使其能够全力以赴打磨面向时序的复杂轨迹规划能力。4. 实验结果为了验证 UniDriveVLA 的有效性我们在 Bench2Drive 闭环基准、nuScenes 开环基准以及多个视觉问答VQA数据集上进行了评测。4.1 Bench2Drive 闭环驾驶评测Bench2Drive 测试了模型在仿真环境中控制车辆的能力。如表1所示在未使用 PDM-Lite高阶专家演示数据的方法中UniDriveVLA 的驾驶得分Driving Score为 78.37通行效率Efficiency为 198.86路线完成率Success Rate为 51.82%。表1Bench2Drive 闭环规划与开环能力对比表2展示了模型在不同交互场景下的成功率。在“车辆汇入Merging”和“超车Overtaking”等场景中UniDriveVLA 分别取得了 38.75% 和 80.00% 的成功率在对比方法中表现较好。表2Bench2Drive 多能力场景评测表现4.2 nuScenes 开环规划与感知评测在 nuScenes 数据集上我们分别测试了模型的轨迹规划能力和 3D 感知能力。表3对比了不同方法在 ST-P3 和 UniAD 评估协议下的端到端规划表现。在无自车状态输入Without Ego Status的设定下即模型无法获取当前车速与转向角仅依赖视觉输入UniDriveVLA-Large 取得了较低的平均 L2 误差。在有自车状态输入的设定下模型也保持了竞争力。表3nuScenes 端到端轨迹规划性能在空间感知方面表4UniDriveVLA-Large 的 3D 目标检测 NDS 为 0.460在线地图构建 mAP 为 0.535。对比早期的 VAD 等方法检测和建图指标有所提升说明稀疏感知模块能为下游规划提供有效的空间信息。表4nuScenes 验证集上的感知、建图与运动预测表现4.3 架构对比与消融实验为了验证专家解耦MoT架构的作用我们将其与传统的共享权重解码器Shared-Weight Decoder进行了对比。如表5所示采用 MoT 架构后规划任务的平均 L2 误差从 0.641 降至 0.533碰撞率从 17.5% 降至 14.0%。此外模型在驾驶场景问答DriveBench和通用 VQA 上的得分也有所提高说明专家解耦能够缓解不同任务间的优化冲突。表5共享权重解码器与 MoT 架构在理解、感知与规划任务上的对比表6是对规划组件的消融实验。在基线模型上逐步加入各项感知组件后规划性能得到改善。引入 3D 目标检测使碰撞率下降至 0.10%而占据栅格Occupancy的引入带来了最优的 L2 误差0.53。表6nuScenes 规划组件消融实验4.4 驾驶场景理解与通用多模态泛化表7展示了模型对驾驶场景语义的理解能力。在 DriveBench 评测中UniDriveVLA 获得了 51.97 的平均分并在行为推理Behavior子项上取得了 60.97 分表现出一定的意图理解与行为预测能力。表7DriveBench 驾驶场景理解能力对比最后我们测试了模型在通用视觉问答基准上的表现表8。经过驾驶领域的微调后UniDriveVLA 在 RealWorldQA、AI2D 和 ChartQA 等非驾驶相关的数据集上保留了相应的分数说明训练策略缓解了对基础视觉大模型通用知识的灾难性遗忘。表8模型在通用多模态理解基准上的表现5.结论在这项工作中我们提出了UniDriveVLA—— 一个将语义理解、空间感知与动作规划集成于单一模型中的统一自动驾驶 VLA 框架。我们揭示了现有单体 VLA 模型中普遍存在的“感知-推理冲突”在共享参数下同时优化空间感知与语义推理会导致特征表征的严重干扰。为解决这一痛点UniDriveVLA 引入了Mixture-of-Transformers (MoT)架构通过设立专用的理解、感知与规划专家实现了受控的跨专家交互显著缓解了优化冲突。此外我们采用了直接从多尺度 2D 视觉特征中提取空间先验的稀疏感知机制并配合三阶段渐进式训练策略在大幅提升感知与规划精度的同时守住了视觉语言模型原生的语义推理能力。在感知、理解、规划等多个主流基准上的实验结果充分证明了 UniDriveVLA 作为自动驾驶统一底座模型的优越性。更进一步UniDriveVLA 这种语义和感知协同规划的设计理念不仅适用于自动驾驶未来还可扩展至机器人操纵等更多需要兼顾精细空间感知与高层语义推理的具身智能场景。自动驾驶之心

更多文章