HarmonyDream: Task Harmonization Inside World Models
- RL笔记
- 2025-07-02
- 19热度
- 0评论
年份 2024 ICML
作者 Haoyu Ma * 1 Jialong Wu * 1 Ningya Feng 1 Chenjun Xiao 2 Dong Li 2 Jianye Hao 2 3 Jianmin Wang 1 Mingsheng Long
1School of Software, BNRist, Tsinghua University. 2Huawei Noah’s Ark Lab. 3College of Intelligence and Computing, Tianjin University.
摘要
基于模型的强化学习 (MBRL) 有望利用世界模型实现样本高效学习,该模型对环境的运作方式进行建模,通常包含两项任务的组件:观察建模和奖励建模。在本文中,通过专门的实证调查,我们更深入地了解了每项任务在世界模型中的作用,并通过减轻观察或奖励建模的主导地位,揭示了样本效率 MBRL 被忽视的潜力。我们的主要见解是,虽然显式 MBRL 的流行方法试图通过观察模型恢复环境的丰富细节,但由于环境的复杂性和有限的模型容量,这很困难。另一方面,奖励模型虽然主导隐式 MBRL 并擅长学习紧凑的以任务为中心的动态,但如果没有更丰富的学习信号,则不足以进行样本高效学习。在这些见解和发现的推动下,我们提出了一种简单而有效的方法,即 HarmonyDream,它会自动调整损失系数以保持任务协调,即世界模型学习中两个任务之间的动态平衡。我们的实验表明,配备 HarmonyDream 的基本 MBRL 方法在视觉机器人任务上获得了 10%-69% 的绝对性能提升,并在 Atari 100K 基准测试中创造了新的最先进的结果。
主要结论
在MBRL中,建模世界模型或者说环境的时候,多任务之间的权重分配不对,比如Dreamer中的观察模型和奖励模型,损失函数中的权重不同对模型的效果影响很大
作为一项主导任务的观察建模可能会导致世界模型建立虚假相关性,而不会意识到不正确的奖励预测。但是也不能完全学习奖励模型而不学习观察模型,如上图w_0等于0的时候,其实效果也不好,而且方差极大,不稳定。
作者提出
对权重进行动态学习,来平衡多任务之间的关系,取得了很好的效果,而且将该方法推向了所有的基于模型的强化学习算法,而不仅仅是Dreamer系列。
学习的内容
1、知道了在原系数的时候,模型原来更关注的是观察模型,因为观察模型的Loss跟奖励模型的Loss在数量级上有差距
2、学习了一种动态调整系数的方法
3、学习到了原来可以直接将 w = Loss/sg(Loss),sg是不反向传播,这种方法也可以解决Loss数量级存在差别的问题,但是这种方法由于损失仅根据一小批数据计算,并且在整个训练过程中会波动,因此这些权重对异常值很敏感,因此可能会进一步加剧训练的不稳定性。 不推荐使用
疑问
1、实验够多,创新点说白了只有一个,但是确实很有用