Dreamer V2: MASTERING ATARI WITH DISCRETE WORLD MODELS

z_ai
RL笔记
2025-07-02
123热度
0评论

2021年 ICLR

MASTERING ATARI WITH DISCRETE WORLD MODELS

作者：

Danijar Hafner（ Google Research）

Timothy Lillicrap （DeepMind）

Mohammad Norouzi （Google Research）

Jimmy Ba（ University of Toronto）

摘要

智能代理需要从过去的经验中概括出来，才能在复杂环境中实现目标。世界模型促进了这种泛化，并允许从想象的结果中学习行为以提高样本效率。虽然从图像输入中学习世界模型最近对于某些任务来说是可行的，但多年来，足够准确地对 Atari 游戏进行建模以得出成功的行为仍然是一个开放的挑战。我们介绍了 DreamerV2，这是一种强化学习代理，它纯粹从强大世界模型的紧凑潜在空间中的预测中学习行为。世界模型使用离散表示，并与策略分开训练。DreamerV2 构成了第一个通过在单独训练的世界模型中学习行为，在 Atari 的 55 项任务基准测试中达到人类水平性能的代理。在相同的计算预算和挂钟时间下，Dreamer V2 达到 200M 帧，并超越了顶级单 GPU 代理 IQN 和 Rainbow 的最终性能。DreamerV2 也适用于具有连续动作的任务，它可以学习复杂人形机器人的准确世界模型，并仅通过像素输入解决站立和行走问题。

主要结论

1、分开单独训练世界模型和行为策略，跟我看完Dreamer之后一样的想法！

2、使用KL balancing，让模型能够更关注于先验知识，同时也弥补了训练开始阶段先验知识不足的缺点

3、潜在动态模型（世界模型）学习的过程中，输出不再是连续的空间，而是离散的32×32的离散空间，使用Straight-Through Gradients with Automatic Differentiation进行优化

学习内容

1、Straight-Through Gradients with Automatic Differentiation这个也很有意思，离散空间不方便计算梯度，所以先用one_hot编码再用softmax得到概率分布，再通过加一个带梯度的概率分布减一个不带梯度的概率分布从而实现结果不变，但是能够更新梯度的效果

2、KL balancing散度也是一大亮点，提高模型效率的关键

疑问

1、强化学习为什么在未知情况下做出正确判断，很大程度上是因为函数不完全拟合数据，存在一定差异。这种差异很可能对应着潜在的未知情况。

2、既然世界模型在这里的作用是预测下一个state的图像和reward，为何不使用更复杂的模型呢，例如Transform等？

3、Loss中的约束没了

4、为什么实验中没有分析是否单独训练世界模型的影响

1、看了代码之后的想法，buffer如何更新？好像是随机的，能不能按时序或者其他的方法更新buffer

2、真实的训练过程要看一下，不知道是Loss怎么算的，是否是采样一序列的图像来训练，还是一帧一帧采样（仔细看了论文，应该是一次性采集一个序列）