IRIS: Transformers are Sample-Efficient World Models
- RL笔记
- 2025-07-02
- 6热度
- 0评论
年份 2023 ICLR
作者Vincent Micheli∗ University of Geneva
Eloi Alonso∗ University of Geneva
François Fleuret University of Geneva
摘要
众所周知,深度强化学习代理的样本效率低下,这在很大程度上限制了它们在实际问题上的应用。最近,已经设计了许多基于模型的方法来解决这个问题,其中在世界模型的想象中学习是最突出的方法之一。然而,虽然与模拟环境进行几乎无限的交互听起来很有吸引力,但世界模型必须在较长时间内保持准确。受到 Transformers 在序列建模任务中的成功的激励,我们引入了 IRIS,这是一种数据高效的代理,可在由离散自动编码器和自回归 Transformer 组成的世界模型中学习。在 Atari 100k 基准测试中,IRIS 相当于仅两个小时的游戏时间,人类平均标准化分数为 1.046,并且在 26 款游戏中有 10 款的表现优于人类,为没有前瞻搜索的方法树立了新的水平。为了促进对 Transformer 和世界模型的未来研究,以实现样本高效的强化学习,我们在 https://github.com/eloialonso/iris上发布了我们的代码和模型。
主要结论
随着时间的推移展开想象力。此图显示了策略π(用紫色箭头表示),在想象中采取一系列操作。绿色箭头对应于离散自动编码器的编码器 E 和解码器 D,其任务是用其学习的符号语言表示帧。世界模型的主干 G 是一个类似 GPT 的 Transformer,用蓝色箭头表示。对于策略 π 采取的每个操作,G 通过自回归展开 D 可以解码的新帧标记来模拟环境动态。G 还预测奖励r和可能的剧集终止d。更具体地说,初始帧 x0 用 E 编码为标记 z0 = (z01, . . . , z0K ) = E(x0)。解码器 D 重建图像 xˆ0 = D(z0),策略 π 从中预测动作 a0。根据 z0 和 a0,G 预测奖励 rˆ0,情节终止 dˆ0 ∈ {0, 1},并以自回归方式 zˆ1 = (zˆ11, . . . , zˆ1K) 下一帧的标记。虚线框表示给定时间步长的图像标记,而实心框表示 G 的输入序列,即 t = 0 时的 (z0, a0),t = 1 时的 (z0, a0, zˆ1, a1) 等。策略π纯粹是用想象的轨迹进行训练的,并且只部署在真实环境中以改进世界模型(E、D、G)。
学习的内容
三部分
collect_experience: gather experience in the real environment with the current policy. update_world_model: improve rewards, episode ends and next observations predictions. update_behavior: in imagination, improve the policy and value functions.
经验数据收集;
世界模型:
- 离散自动编码器 AE作为Encoder和Decoder
- 自回归Transformer
行为学习:
Based on Dreamer V2
疑问
1、Transition中,为什么要一个一个预测组成
不能直接预测一堆或者只预测一个值吗