地平线开始回答自动驾驶世界模型的解法,CompoSIA方案解析......

张开发
2026/4/21 17:05:31 15 分钟阅读

分享文章

地平线开始回答自动驾驶世界模型的解法,CompoSIA方案解析......
点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | Yifan Zhan等编辑 | 自动驾驶之心本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球自动驾驶的测试有一个老问题一直悬而未决长尾场景。nuScenes、Waymo 这些主流数据集覆盖的基本上是正常开车的样子。常见车辆、常见路况、常见行为。而真正让系统出问题的一般都是那些极少出现的组合 —— 一辆从未见过姿态的卡车突然横穿、前车以异常节奏急刹、对向车道来了一辆特殊的工程车……这些东西在真实采集的数据里出现频率极低但它们又恰恰是安全的边界。想要解决这个问题一个常见的思路是用生成模型来造场景。但场景生成的难点在于细粒度控制在保持视觉真实感的同时又能按你的意图去改变哪辆车长什么样、它走什么轨迹、自车怎么运动 —— 现有方法大多做不到同时控制好这三件事。轨迹、外观、背景和控制信号之前互相干扰也是自动驾驶场景生成最常见的问题。业内头部的公司也针对闭环仿真做了很多工作像小鹏的X-World、理想的生成重建、小米的一系列算法等等。最近地平线也放出了自己在这个领域最新的研究成果产出CompoSIA。CompoSIA 支持的多种场景编辑模式涵盖自车动作控制红、场景结构控制绿和目标身份控制橙每组展示起始帧与生成帧的对比论文标题Composing Driving Worlds through Disentangled Control for Adversarial Scenario Generation论文链接https://arxiv.org/abs/2603.12864项目主页https://yifever20002.github.io/CompoSIA/一、自动驾驶视频仿真这几年在聊 CompoSIA 之前先把这个方向的发展脉络简单捋一下。最早一批工作的目标很朴素让生成的驾驶视频看起来真实。BEV 条件下的扩散模型、多视角一致性生成这一代工作解决的核心问题是感知数据的扩充代表工作有 Vista、WoVogen 和 MagicDrive-V2 等。它们能生成视觉质量不错的场景但可控性有限 —— 可以指定大致布局但细粒度的这辆车换成另一辆、自车走另一条线做不到。另一条线场景编辑方向开始发力。DriveEditor 等工作开始尝试对视频中的特定对象做身份替换但要求输入姿态对齐的参考序列操作复杂难以推广到任意目标。整体看下来自驾视频仿真工作要么只控制了场景的一个维度要么几个维度虽然都做了但彼此之间互相干扰。没有一个方法认真问过结构、身份、自车动作这三件事能不能同时控好、互不影响CompoSIA 就是在这个背景下出现的。各方法控制能力横向对比。CompoSIA 是唯一同时支持 Structure、Element ID、Scene ID 和 Ego-Action 四类控制的方法二、问题出在哪现有的可控驾驶视频生成方法有一个共性的困境控制信号之间不够解耦。场景的构成直觉上可以分成几个相对独立的维度场景里有哪些物体、它们在哪儿、长什么样、自车是怎么运动的。但在现有方法里这几个维度往往是混在一起建模的。比如当你用 3D bounding box 去做结构控制时box 的位置序列其实隐含了自车的运动信息——你以为自己只改了结构但自车行为其实已经被结构信号泄露了。再比如做 identity 控制时如果直接用 attention 机制把参考图贴进去模型往往对参考图的姿态很敏感换个角度效果就变差了。这些问题不解决生成出来的场景要么不够可控要么几个维度改一个、别的维度就跟着乱。CompoSIA 的核心创新思路就是把这三个维度显式分离各自用针对性的方式注入再在 Flow Matching-based DiT 骨干上统一组合。三、核心模块解析CompoSIA 整体架构三类控制信号结构、身份、动作通过各自专属模块解耦注入 Flow Matching-based DiT 骨干CompoSIA 的生成骨干基于 Continuous Flow Matching。中间状态由噪声和干净样本插值得到模型学习的是速度场训练目标为在这个骨干之上三个控制模块各自以不同的方式注入条件信号。3.1 结构控制时空布局驱动场景几何结构控制负责回答场景里的物体在哪、怎么动。CompoSIA 把 3D bounding box 序列通过相机内外参投影到 2D 图像空间得到逐帧的空间布局其中是 3D box 的顶点和分别是相机内参和外参矩阵。得到的 2D 布局通过一个零初始化的投影模块注入到 DiT 的 latent 里这个设计不破坏原有的生成路径同时把场景的几何结构锁住。但这里有一个需要特别处理的地方3D box 的位置序列天然包含自车运动信息直接用会让结构信号把 ego action 的信息带进来导致两个控制维度混淆。所以结构控制必须和动作控制配合使用才能真正把二者解开。3.2 身份控制噪声级注入解决姿态依赖身份控制是CompoSIA的第二大亮点。以往自驾视频编辑工作如DriveEditor需要姿态对齐的ID序列来进行身份控制而这种控制方式太过复杂而难以scaling到任意ID。因此CompoSIA期待从单张参考图就能换掉场景中某个目标的外观。过去的做法通常依赖 attention 机制把参考图特征和生成特征做融合但这类方法对参考图的视角很敏感换个角度效果就变差了。CompoSIA 换了一个思路直接在噪声空间里注入参考图。具体做法是先对参考图做与目标帧相同的加噪处理然后通过一个带阈值的掩码在高噪声阶段把参考 latent 直接替换到目标区域其中是参考图对应的空间掩码是阈值。当高噪声阶段参考 latent 被强制写入目标区域——此时 latent 还很模糊模型会把替换进来的参考信号当作强约束学到这个区域要长成参考图的样子而到了低噪声阶段掩码关闭模型可以自由补全姿态细节。这种 hard binding 不走 attention彻底绕开了姿态敏感的问题。训练时以视频中某一帧为参考构造带参考注入的噪声 → 去噪目标帧的训练对参考图通过 2D bounding box 做空间对齐覆盖到目标区域。这样模型学到的是从任意视角的参考图恢复目标外观而不是复制参考图的姿态。结果是单张参考图就能驱动目标以任意姿态出现FVD 相较 DriveEditor 提升了 17%。身份控制的噪声级注入流程。参考图在高噪声阶段直接替换目标区域的 latent去噪过程完成外观迁移无需姿态对齐3.3 动作控制双分支层级机制管住自车行为动作控制负责回答自车怎么开这也是整个系统里最容易和结构信号耦合的部分。CompoSIA 设计了一个层级双分支结构局部残差调制Local Residual Modulation从相邻帧的位姿变换中提取局部运动信号这个信号通过 adaptive layer normalization 注入 DiT block负责捕捉短程的运动变化让模型在早期训练中快速收敛。全局 PRoPE 嵌入Global Projective Positional Encoding把相机的内外参信息编码进 positional embedding通过投影矩阵构建相机感知的注意力这种设计让注意力机制直接感知相机运动处理长程的轨迹一致性。为了控制计算开销系统把 token 投影到低维子空间做运算在保持精度的同时降低计算量。两个分支互补局部分支管短程精度全局分支管长程稳定。消融实验里单独用 PRoPE 的 RotErr 为 0.62两者合用降到 0.55与最强 baseline MagicDrive-V2 相比TransErr 从 13.66 降到 7.37降低 46%RotErr 从 0.76 降到 0.55降低 28%。动作控制双分支架构。局部残差调制绿捕捉短程帧间运动全局 PRoPE Attention红处理长程轨迹一致性两者并行注入同一 DiT block四、效果压力测试让碰撞率涨了 173%CompoSIA 的最终目标不是生成好看的视频而是生成能让规划器出错的场景。定量指标上Identity 控制FVD 较 DriveEditor 提升 17%Action 控制旋转误差降低 30%平移误差降低 47%跨视角和时序一致性优于 MagicDrive-V2各控制模式视频质量定量对比FVD ↓ / VBench ↑。CompoSIA 在场景跟随、身份控制、动作控制三个任务上均取得最优动作控制定量结果。CompoSIA 在 Action Following 和 Action Editing 两项任务的旋转误差与平移误差上均优于所有基线方法结构与动作控制视觉对比。CompoSIA 在变道、停车、直行等动作下的生成效果优于 MagicDrive-V2、Vista 和 ReCamMaster身份控制视觉对比。给定单张参考图CompoSIA 准确迁移目标外观效果显著优于 TTM、LoRA-Edit 和 DriveEditor视频质量与时序 ID 一致性对比。CompoSIA 在多帧跨度下保持与 Ground Truth 接近的细节MagicDrive-V2 在时序上出现明显漂移实验里作者把 CompoSIA 生成的对抗场景接入下游规划器Epona做压力测试。结果跨所有编辑模式平均碰撞率提升了 **173%**。其中结构编辑单项就能让碰撞率提升 390%——换句话说仅仅改变场景里物体的位置和轨迹就足以让规划器大量失效。这说明 CompoSIA 生成的不只是看起来危险的场景而是真正能暴露规划器漏洞的有效测试样本。基于 Epona 规划器的压力测试结果。结构编辑使碰撞率提升 390%各编辑模式平均碰撞率提升 173%五、结语整体看下来CompoSIA 在回答一个问题★驾驶场景的各个维度真的可以独立控制吗答案是可以但需要针对每个维度的特性去设计对应的解耦方式——结构的几何映射、身份的噪声级复原、动作的层级双分支——不能用一套通用机制把三件事一锅端。生成式视频模型在感知数据增强上已经有很多工作但如何让生成的场景真正服务于安全测试还有很大的探索空间。CompoSIA 走的是可控 对抗这条路把生成模型和规划器的压力测试真正连起来。后续怎么走还值得继续看。自动驾驶之心

更多文章