Dreamer V3: Mastering Diverse Domains through World Models
- RL笔记
- 2025-07-02
- 67热度
- 0评论
2023年
Mastering Diverse Domains through World Models
作者:
Danijar Hafner (Google DeepMind)
Jurgis Pasukonis(Google DeepMind)
Jimmy Ba (University of Toronto)
Timothy Lillicrap(Google DeepMind)
这篇加了好多trick,有点看不懂了😭
摘要
开发一种通用算法来学习解决各种应用程序中的任务一直是人工智能的一个基本挑战。尽管当前的强化学习算法可以很容易地应用于与它们开发时类似的任务,但为新的应用领域配置它们需要大量的人类专业知识和实验。我们介绍了 DreamerV3,这是一种通用算法,在超过 150 种不同的任务中,其性能优于专业方法,具有单一配置。Dreamer 学习环境模型,并通过想象未来场景来改进其行为。基于规范化、均衡和转换的稳健性技术可实现跨领域的稳定学习。Dreamer 是第一个在 Minecraft 中从头开始收集钻石的算法,无需人工数据或课程。这一成就是人工智能领域的重大挑战,需要在开放世界中从像素和稀疏奖励中探索有远见的策略。我们的工作允许解决具有挑战性的控制问题,而无需进行大量实验,使强化学习具有广泛的适用性。
主要结论
1、模型整体的架构上其实跟Dreamer V2差不多,主要是在细节上进行了修改。
2、Free bits,截断约束,让模型也能够关注到小的参数,就是KL散度那个损失,约束最小为1
3、符号对数预测(symlog predictions)、exponential moving average (EMA),用来平衡归一化损失,从而适用于各种大小损失值的任务
4、twohot
5、同时还对R标准化,除以S,从而使模型适用于dense reward和sparse reward环境
学习内容
1、文章为了能够实现一个大一统的模型,做了很多工作,以后写文章也是,要有明确的目的。
2、符号对数预测(symlog predictions)、EMA、twohot等等各种trick
3、截断,Dreamer V3就用了两次,确实可能很有用
疑问
1、Dreamer V3这一堆trick不知道哪来的,但是感觉如果明确要做什么的话,可能也很方便查找到相关的知识
2、大一统了,,,,,能不能反其道而行之呢,整个大模型Dreamer,然后具体任务再微调
1、有没有做3D Dreamer的,用清华什么的做的世界模型进行训练学习
2、不同时间节点给不同的权重,类似于通道注意力机制
3、多模态的学习,同时输入image和状态?