贝叶斯强化学习优势

张开发
2026/4/8 1:22:51 15 分钟阅读

分享文章

贝叶斯强化学习优势
好所有关键论文的链接都找到了现在来写一份详细、通俗易懂的版本。强化学习 vs 贝叶斯强化学习深度解析第一步先把强化学习本身讲清楚想象你在训练一只小狗。你让它坐下坐对了给零食坐错了不给。小狗通过反复试错慢慢学会了坐下这个动作能获得奖励。强化学习RL的逻辑完全一样Agent智能体 小狗Environment环境 你和训练场Action动作 狗做的动作Reward奖励 零食 / 没有零食Policy策略 狗最终学到的行为规则听到坐下就坐标准 RL 的核心假设是环境是固定的我只需要通过足够多的试错找到最优策略。第二步标准 RL 的根本问题——过度自信的学生标准 RL 就像一个只经历了几次考试就认为自己摸透了所有题型的学生。它对环境建立的是点估计——用一个固定的数字来代表所有的不确定性。举个具体例子假设机器人要学习走路它摔倒了3次每次向左摔。标准 RL 会得出结论向左走 危险概率 100%然后死死避开左边。但问题是3次摔倒的数据太少了也许只是地板有点滑也许左边其实有更好的路。标准 RL 不知道自己不知道——它把极度不确定的情况当作确定的事实来对待。这导致两个问题探索不足对不熟悉的区域过于回避错过可能更好的策略安全风险在医疗、机器人等场景中过度自信的错误决策可能造成真实伤害第三步贝叶斯强化学习——知道自己不知道什么贝叶斯 RLBRL的哲学非常不同。它不说我知道向左走危险概率是100%而是说根据目前3次摔倒的数据我认为向左走危险的可能性比较大但我还不确定我需要更多数据来更新这个判断。用大白话解释核心概念先验Prior在看到任何数据之前你的初始信念。比如我觉得这条路大概有50%的可能性是安全的。就像医生在检查病人前根据流行病学知识已经有了一个初始判断。后验Posterior看到数据之后更新了的信念。比如检测结果出来了现在我认为有80%的可能性是安全的。贝叶斯公式就是描述这个更新过程的数学规则。不确定性分布Uncertainty Distribution不是用一个数字而是用一条曲线来表达我的信念有多不确定。曲线越宽 越不确定曲线越窄 越确定。数学上对未知的环境参数 $\theta$BRL 维护一个后验分布$$\underbrace{P(\theta \mid \mathcal{D})}{\text{我现在的信念}} \propto \underbrace{P(\mathcal{D} \mid \theta)}{\text{数据有多符合这个假设}} \times \underbrace{P(\theta)}_{\text{我最初的猜测先验}}$$每次收到新数据这个分布就更新一次变得更窄更确定或偏移改变方向。第四步最大的优势——探索策略标准 RL 的探索靠掷硬币标准 RL 用的是ε-greedyε贪心策略以 ε 的概率随机行动探索以 1-ε 的概率选最好的已知动作利用。问题这完全是启发式的没有任何理论保证说这个比例是合理的。在危险区域和安全区域它用同样的随机概率去探索毫无差别。就像一个人不管是在超市还是在悬崖边都以同样的概率随机走动。贝叶斯 RL 的探索PSRL——想象自己在不同的平行世界论文Osband, Russo, Van Roy — MoreEfficient Reinforcement Learning via Posterior Sampling, NIPS 2013PSRL后验采样强化学习的思路极其优雅算法步骤大白话版我现在相信世界可能是A、B、C三种情况后验分布我从中随机抽一种比如抽到了B在脑海中假设世界就是B针对世界B求解最优策略然后按这个策略行动一整局收集数据更新我对世界到底是什么的判断重复为什么这比 ε-greedy 聪明得多当我对某个区域非常不确定时我的后验分布很宽 → 采样出各种不同的世界 → 对应的策略各不相同 → 自然会大量探索这个区域。当我对某个区域很确定时我的后验分布很窄 → 采样出的世界都差不多 → 对应策略也差不多 → 不再浪费时间重复探索。探索是由不确定性自动驱动的不需要人工设定参数。PSRL 的理论保证是它给出了一个 $\tilde{O}(\tau S \sqrt{AT})$ 的期望遗憾上界其中 $T$ 是总时间步$\tau$ 是每局时长$S$ 和 $A$ 分别是状态数和动作数。什么是遗憾Regret就是如果一开始就知道最优策略累积奖励会多多少。遗憾越小说明学得越快、越好。实验数据RiverSwim 环境在 RiverSwim 环境一个经典的探索困难场景中进行的50次蒙特卡洛模拟显示PSRL 在每一个测试环境中都超越了 UCRL2且在 RiverSwim 中PSRL 的优势极为显著。具体来说在10万步的模拟中PSRL 的累积遗憾约是 UCRL2 的1/3到1/5。第五步样本效率的直观展示——PILCO论文Deisenroth Rasmussen — PILCO: A Model-Based and Data-Efficient Approach to Policy Search, ICML 2011PILCO 是 BRL 思路在机器人控制上最经典的应用。它用高斯过程Gaussian ProcessGP来建模动力学——GP 不是一个固定的函数而是一个函数的概率分布也就是说它同时考虑了所有可能符合数据的动力学模型。大白话解释高斯过程普通模型机器人向右推会移动5厘米一个确定的值高斯过程机器人向右推我认为大概率移动4~6厘米但也有小概率移动3~7厘米最不可能移动0厘米或10厘米一个分布当数据少时这个分布很宽当数据多时分布收窄趋近于普通模型。实验结果真实机器人Cart-Pole 摆杆任务在真实 Cart-Pole 系统上PILCO 在与物理系统仅17.5秒的实际交互后就学会了完整的摆杆平衡任务。对比同期其他方法图5 log-scale 对比方法所需交互时间传统 RL 方法Kimura et al.等数分钟到数十分钟PILCO贝叶斯~17.5 秒PILCO 通过学习一个概率动力学模型并在长期规划中显式地考虑模型不确定性从而能够仅凭极少的数据进行学习并在几次尝试内从零开始学会任务。为什么样本效率这么高普通 Model-Based RL学一个确定的模型 → 模型有偏差 → 用错误的模型规划 → 需要大量真实数据纠偏PILCO维护一个不确定性分布 → 规划时考虑所有可能的模型 → 天然避免了对单个错误模型的过度信任 → 少量真实数据就够第六步BRL 综合能力——Survey 中的核心洞见论文Ghavamzadeh, Mannor, Pineau, Tamar — Bayesian Reinforcement Learning: A Survey, Foundations and Trends in ML, 2015这篇综述总结了 BRL 的两大核心激励其一它为动作选择探索/利用权衡提供了一种优雅的方式将不确定性的程度纳入决策其二它提供了一种将先验知识注入算法的机制。三大优势的统一理解标准 RL 的视角 我不知道 → 随机试试 启发式无原则保证 BRL 的视角 我不知道 → 我对不知道多少有精确的量化 → 根据这个量化做出理论上最优的探索决策第七步什么场景选哪个交互成本高真实机器人/医疗/金融 数据量少 需要安全保证 有可用的领域先验知识 ↓ 是 贝叶斯强化学习 PSRL / PILCO / GP-SARSA 交互成本低模拟器/游戏 数据量极大Atari 5000万帧 计算资源充足 状态空间巨大 ↓ 是 标准深度强化学习 DQN / PPO / SAC什么时候 BRL 优势不明显BRL 并非银弹在以下场景优势减弱数据极其丰富Atari 游戏DQN 用 5000万帧大数据下点估计已经足够精确先验影响微乎其微状态/动作空间极大后验维护的计算代价爆炸近似方法变分推断、粒子滤波引入额外误差先验设计困难错误的先验可能比没有先验更糟一句话总结标准 RL 问的是怎么做才能拿最多奖励贝叶斯 RL 问的是在我不确定世界是什么样的情况下怎么做才能拿最多奖励同时还能以最聪明的方式消除这种不确定性。

更多文章