World Model
- RL笔记
- 2025-07-02
- 25热度
- 0评论
2018年
作者:David Ha (Google Brain)
J ̈urgen Schmidhuber( NNAISENSE Swiss AI Lab, IDSIA (USI & SUPSI))
摘要:
这篇论文探讨了构建称为"世界模型"的生成神经网络模型,用于流行的强化学习环境。世界模型以无监督的方式进行训练,学习环境的压缩空间和时间表示。通过使用从世界模型中提取的特征作为简单代理控制器的输入,代理可以解决所需的任务。作者甚至演示了在代理自己幻想的梦境中完全训练代理,然后将策略转移回实际环境。
主要结论:
1、提出了世界模型的概念
2、该论文提出了一个框架,包含三个关键组件:一个视觉(V)模型将观察压缩为潜在表示,一个记忆(M)模型预测未来的潜在表示,以及一个简单的控制器(C)模型将潜在表示映射到动作。
3、V和M模型使用反向传播高效训练,而C模型保持小型简单,允许使用更不常见的优化技术,如进化策略。
4、将复杂的世界模型(V和M)与简单的控制器(C)分离,使代理能够利用世界模型学习的丰富表示,学习高度紧凑的策略来解决任务。
5、作者展示了在由世界模型生成的幻觉环境中完全训练代理的能力,然后将学习到的策略转移回实际环境。
学习内容:
1、model-base RL其实早已提出,但是这篇文章作者首次提出将RNN作为model取得了很好的效果,再结合VAE,组成了世界模型的雏形(之前的model效果不好,所以大部分是model-free)
2、使用CMA-ES来优化模块C是我没想到的,可能是C比较简单,顺其自然就想到了
疑问
VizDoom 实验没怎么懂,如何做到完全在梦中训练。文章中提到: 在这个模拟中,我们不需要 V 模型在幻觉过程中编码任何真实的像素帧,因此我们的代理将完全在潜在的空间环境中进行训练。
不知道是不是指算法只在GYM的ENV中训练,而不接触真实数据,然后应用时直接部署到真实环境中。