【VLA】Vision Language Action

张开发

• 2026/5/20 10:16:47 • 15 分钟阅读

分享文章

文章目录一、什么是世界模型World Model✅ 定义核心功能技术原理典型架构二、世界模型在具身智能中的作用三、VLAVision-Language-Action模型是什么✅ 定义技术原理四、世界模型、VLA、RL 的区别与联系联系三者如何协同五、为什么 VLA 需要配合世界模型和 RL❌ VLA 单独使用的局限✅ 配合后的优势六、当前趋势三者融合的代表工作七、VLA vs. VLM训练好后的优势✅ 总结一、什么是世界模型World Model✅ 定义世界模型是智能体Agent内部对环境动态dynamics的可学习、可推理的内部表征或模拟器。它能预测“如果我执行某个动作环境会如何变化”。核心功能状态编码将观测如图像、激光雷达压缩为紧凑的潜在状态z t z_tzt动态预测给定当前状态z t z_tzt和动作a t a_tat预测下一状态z t 1 f ( z t , a t ) z_{t1} f(z_t, a_t)zt1f(zt,at)奖励/回报预测可选预测未来奖励r t 1 r_{t1}rt1想象/规划在内部“模拟”多步未来无需与真实环境交互。技术原理典型架构以Dreamer / DreamerV2 / DreamerV3为代表graph LR O_t[Observation o_t]--Encoder --z_t[Latent State z_t]z_t --Dynamics --z_t1[Predicted z_{t1}]a_t[Action a_t]--Dynamics z_t1 --Decoder --ō_t1[Reconstructed o_{t1}]EncoderCNN RNN 将图像序列编码为z t z_tztDynamics NetworkRNN 或 Transformer 预测状态转移训练目标重建观测预测奖励保持信息瓶颈避免过拟合。关键思想在潜在空间中建模世界而非像素空间效率高、泛化好。二、世界模型在具身智能中的作用作用说明降低样本复杂度在内部模拟中试错减少真实环境交互节省时间/成本长期规划能力想象多步未来如“开门→进屋→拿杯子”支持分层决策鲁棒性提升对传感器噪声、部分遮挡更鲁棒因建模的是语义状态零样本迁移学到的动态模型可迁移到新任务只要环境物理规律不变没有世界模型的具身智能 ≈ 盲目试错有世界模型 ≈ 带“想象力”的智能体。三、VLAVision-Language-Action模型是什么✅ 定义VLA 模型是一种端到端的策略网络直接将视觉观测自然语言指令映射为机器人动作。典型代表RT-2 (Google), OpenVLA, GR00T (NVIDIA)。技术原理多模态编码图像 → ViT 编码文本指令 → LLM如 PaLM, Llama编码融合与决策跨模态注意力融合视觉语言特征解码器输出离散/连续动作如关节角、末端速度训练方式行为克隆Behavior Cloning从人类演示数据中学习( o , l ) → a (o, l) \rightarrow a(o,l)→a微调 RLHF用少量 RL 或人类反馈优化。VLA 本质是“模仿学习”的极致看图听指令→做动作。四、世界模型、VLA、RL 的区别与联系维度世界模型WMVLA强化学习RL目标学习环境动态预测未来学习策略输入→动作最大化累积奖励是否需要奖励可无监督仅观测不需要靠演示必须有奖励信号交互方式可离线训练离线演示数据在线/离线交互泛化性高学到物理规律中依赖演示覆盖低任务特定样本效率高内部模拟高一次性学习低需大量试错典型输入观测序列观测语言指令观测奖励联系三者如何协同提供初始策略想象未来轨迹优化动作提供稀疏奖励提供稀疏奖励“VLA: 看图听令→动作”“世界模型: 模拟动作后果”“规划器: 选最优动作序列”“RL: 在真实环境中微调”VLA 提供“常识策略”快速响应语言指令世界模型提供“想象力”评估 VLA 动作是否安全/有效RL 提供“最终校准”在真实环境中修正偏差。五、为什么 VLA 需要配合世界模型和 RL❌ VLA 单独使用的局限缺乏长期规划只能做“反应式”动作无法处理多步任务如“先拿钥匙再开门”安全风险高直接输出动作可能撞墙、摔东西泛化到新场景弱演示数据未覆盖的动作会失败无纠错机制一旦出错无法回溯调整。✅ 配合后的优势组件补足 VLA 的什么缺陷世界模型提供安全沙盒在内部模拟 VLA 动作的后果拒绝危险动作支持多步推理通过想象规划完整任务流程。强化学习提供在线适应在真实环境中微调策略弥补演示数据偏差优化长期回报超越模仿追求任务成功率最大化。理想架构VLA快思考世界模型慢思考/规划 RL经验校准鲁棒、高效、可解释的具身智能RL 在 VLA 框架中的作用虽然 VLA 初始训练通常采用模仿学习Imitation Learning / SFT——即让机器人模仿人类录制的视频或轨迹但 RL 的加入不可或缺超越“平均水平”模仿学习只能让机器人做得和演示者一样好。RL 可以通过自我博弈或奖励机制让机器人探索出比人类演示更高效、更稳健的动作路径。长程任务的一致性在长达数分钟的任务中微小的预测偏差会累积误差漂移。RL 能够通过目标导向的反馈强制模型在整个任务周期内保持动作的一致性。安全性与约束通过设置负奖励RL 可以教会 VLA 避开危险区域如不要撞到人不要打碎玻璃杯这是纯模仿学习很难学到的“边界感”。六、当前趋势三者融合的代表工作方法核心思想RT-2 World Model用 RT-2 生成候选动作世界模型筛选安全/有效的序列OpenVLA MBPO将 VLA 作为策略初始化用模型基策略优化MBPO提升性能GR00T SimulationNVIDIA 构建大规模仿真环境含物理引擎训练世界模型 VLA 联合策略七、VLA vs. VLM训练好后的优势VLM (Vision-Language Model)侧重于“看图说话”理解和描述而VLA侧重于“看图干活”交互和决策。特性VLM (如 GPT-4o, LAVA)VLA (如 RT-2, OpenVLA)输出目标文本描述、分类标签具体的电机控制指令 (如 7-DoF 关节转角)空间感弱可能分不清“左边”和“偏左 3 厘米”极强具备亚厘米级的空间操作精度动态闭环通常是静态交互实时闭环感知→ \rightarrow→动作→ \rightarrow→重新感知推理能力纯逻辑/常识推理具身推理将逻辑转化为物理世界的避障和操作核心优势VLA 解决了“恐怖谷”末端的落地问题。它不仅知道“杯子在桌子上”还知道“如何控制机械臂绕过花瓶以适当的力度拿起杯子”。✅ 总结概念角色类比世界模型智能体的“想象力”和“物理直觉”大脑中的模拟器VLA智能体的“语言理解反射动作”听到指令立刻伸手RL智能体的“实践经验”通过摔跤学会平衡未来具身智能 VLA感知-语言-动作通路 × 世界模型内部模拟 × RL现实校准这种融合架构正成为机器人、自动驾驶、虚拟智能体的主流范式也是通向通用人工智能AGI的关键路径之一。