STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning
- RL笔记
- 2025-07-02
- 8热度
- 0评论
年份 2023 NeurIPS
作者 Weipu Zhang, Gang Wang,∗ Jian Sun, Yetian Yuan
National Key Lab of Autonomous Intelligent Unmanned Systems, Beijing Institute of Technology Beijing Institute of Technology Chongqing Innovation Center
Gao Huang Department of Automation, BNRist, Tsinghua University
摘要
最近,基于模型的强化学习算法在视觉输入环境中表现出了显著的效果。这些方法首先通过自我监督学习构建真实环境的参数化仿真世界模型。通过利用世界模型的想象力,代理的策略得到了增强,而不受来自真实环境的采样限制。这些算法的性能在很大程度上依赖于世界模型的序列建模和生成功能。然而,构建一个复杂的未知环境的完美精确模型几乎是不可能的。模型与现实之间的差异可能会导致代理追求虚拟目标,从而导致在真实环境中的性能不佳。将随机噪声引入基于模型的强化学习已被证明是有益的。在这项工作中,我们介绍了基于随机 Transformer 的 wORld 模型 (STORM),这是一种高效的世界模型架构,它结合了 Transformer 强大的序列建模和生成能力与变分自动编码器的随机性质。STORM 在 Atari 100k 基准测试中实现了 126.7% 的平均人类表现,在未采用前瞻搜索技术的最先进方法中创下了新纪录。此外,在单个 NVIDIA GeForce RTX 3090 显卡上训练具有 1.85 小时实时交互体验的代理只需要 4.3 小时,与以前的方法相比,效率有所提高。
主要结论
STORM 的结构和想象过程。图中使用的符号在第 3.1 节和第 3.2 节中进行了解释。Transformer 模块描述了方程 (2) 中的序列模型 fφ。由神经网络表示的 Agent 模块对应于方程 (6) 中的 πθ(at|st)。
与使用多个标记的 IRIS相比,STORM 使用单个随机潜在变量来表示图像。
STORM 遵循原版 Transformer结构,而 TWM采用 TransformerXL结构。
在 STORM 的序列模型中,observation和action被融合成一个标记,而 TWM [12] 将observation、action和reward视为三个同等重要的独立标记。
也是三个部分,经验收集、世界模型、行为模型
世界模型:
行为模型:
学习的内容
VAE作为Encoder和Decoder
1、CNN输出的是32大小的离散表征,从这个表征中采样出z进行预测和生成(感觉就是VAE)
2、使用一个 输入到Transformer中
3、基于生成的先验采样加上中间的隐状态来得到状态
,再通过
来生成action
疑问
VQ-VAE和Categorical-VAE的区别,可能是VQ-VAE输出值是连续值,而Categorical-VAE是离散值?
结合了RSSM和IRIS?把RSSM的离散表征学了过来