Dreamer V1 : DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION

z_ai
RL笔记
2025-07-02
11热度
0评论

2020年 ICLR

DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION

作者：Danijar Hafner （Google Brain）

Timothy Lillicrap（DeepMind）

Jimmy Ba（University of Toronto）这是不是Hinton的学生那个啊

Mohammad Norouzi （Google Brain）

摘要：

学习世界模型总结来agent的经验，以促进学习复杂的行为。虽然通过深度学习从高维感官输入中学习世界模型变得可行，但有许多潜在的方法可以从中推导出行为。我们介绍了 Dreamer，这是一种强化学习代理，它纯粹通过潜在想象来解决图像中的长视距任务。我们通过将学习状态值的解析梯度传播回学习世界模型的紧凑状态空间中想象的轨迹来有效地学习行为。在 20 个具有挑战性的视觉控制任务中，Dreamer 在数据效率、计算时间和最终性能方面都超越了现有方法。

主要结论：

1、文章首次从纯粹的想象空间中进行学习，来解决图像中的长视距任务

2、提出了Dreamer框架，主要分为三步：

a、学习潜在动态模型，基于与环境交互得到的过去的经验数据集中，学习潜在的动态模型，我觉得这个潜在的动态模型其实就是agent学习到的世界模型。

b、使用actor-critical算法学习行为，基于潜在动态模型和真实交互得到的状态回报观测数据，在想象空间中进行想象以及行为预测，然后更新策略

c、与真实环境进行交互，得到新的经验数据，保存到数据集中

3、从潜在想象中学习行为，也就是第b步，算是这篇文章的方法Method吧，先看伪代码：

伪代码中，其实也对应了上述的三步，学习潜在动态模型也就是世界模型，学习行为，更新经验数据集。这个算法是Model-based的算法，model其实就是算法自己从经验数据集中构建出来的世界模型，然后再行为学习中，先从经验数据集采样得到真实数据，再以该数据为起点，开始想象，其实也就是actor-critical模型需要得到state和reward，就是使用学习出来的世界模型想象（预测）得到。

4、学习潜在动态模型，有三种方法可以学习，分别是reward prediction, image reconstruction, and contrastive estimation

a、Reward prediction 直接预测回报

b、reconstruction 基于PlaNet，使用RSSM重建图像来学习潜在动态模型，并且还在优化目标上增加了约束the variational information bottleneck，类似于拉格朗日乘子，

c、contrastive estimation 预测状态

学习内容：

1、三个模型之间相互学习，一个世界模型（潜在动态模型）、一个Actor、一个Critical。

2、完全从想象空间中学习agent的行为，能够有效的减少长视距问题

疑问

1、the variational information bottleneck 这个约束还得学一下

2、既要学习环境模型，又要学习行为，会不会很难训练和收敛，模型是否过于复杂，能否分开学习，先学习环境，再训练agent的行为，或者先单独学习环境，然后一边更新环境一边学习行为，后面的话环境只需要微调。

3、actor-critical也可以尝试更新一下？PPO之类的，还有优化目标，是否存在更合理的目标？

4、潜在动态模型 latent dynamics 为什么这样子命名，