Z_AI－与你共享美好生活

强化学习的数学原理

Chapter 1 Basic Concepts 1.1 State and Action states, states space, actions, action space, 1.2 State transition When taking an action, the agent may move from one state to another. Such a process is c

RL笔记
z_ai
2025-07-02
23 热度
0评论

DINO-WM: WORLD MODELS ON PRE-TRAINED VISUAL FEATURES ENABLE ZERO-SHOT PLANNING

DINO-WM: WORLD MODELS ON PRE-TRAINED VISUAL FEATURES ENABLE ZERO-SHOT PLANNING Gaoyue Zhou1,∗Hengkai Pan1, Yann LeCun1,2, Lerrel Pinto1 1Courant Institute, New York University, 2Meta-FAIR 背景与Dreamer等

RL笔记
z_ai
2025-07-02
41 热度
0评论

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

背景现代人工智能面临的核心挑战之一是让智能体主要通过观察来学习理解世界并采取行动。V-JEPA 2正是基于这一愿景，探索一种全新的自监督学习路径，旨在构建一个通用的物理世界模型。方法 V-JEPA 2采用了分阶段的训练策略，结合了海量“世界数据”和少量主动交互数据。第一阶段：V-JEPA 2 预训练 (无动作世界模型) 此阶段的目标是利用互联网上无穷无尽的视频，让模型学习到关于世界如何运作的

RL笔记
z_ai
2025-07-02
31 热度
0评论

NWM: Navigation World Models

Teaser 背景导航是具备视觉-运动能力的智能体的基本技能。当前的导航方法，尤其是监督学习策略（如NoMaD），一旦训练完成，其行为模式就被“固化”，难以在规划时动态地加入新的约束（例如，“禁止左转”），也无法为难题动态分配更多计算资源。为了解决这些局限性，NWM (Navigation World Model) 被提出。它并非直接学习一个从观测到动作的策略，而是构建一个可控的视频生成模型，

RL笔记
z_ai
2025-07-02
28 热度
0评论

HarmonyDream: Task Harmonization Inside World Models

年份 2024 ICML 作者 Haoyu Ma * 1 Jialong Wu * 1 Ningya Feng 1 Chenjun Xiao 2 Dong Li 2 Jianye Hao 2 3 Jianmin Wang 1 Mingsheng Long 1School of Software, BNRist, Tsinghua University. 2Huawei Noah’s Ark Lab

RL笔记
z_ai
2025-07-02
18 热度
0评论

Dreamer V3: Mastering Diverse Domains through World Models

2023年 Mastering Diverse Domains through World Models 作者： Danijar Hafner （Google DeepMind） Jurgis Pasukonis（Google DeepMind） Jimmy Ba （University of Toronto） Timothy Lillicrap（Google DeepMind）这篇加了好多tr

RL笔记
z_ai
2025-07-02
67 热度
0评论

Dreamer V2: MASTERING ATARI WITH DISCRETE WORLD MODELS

2021年 ICLR MASTERING ATARI WITH DISCRETE WORLD MODELS 作者： Danijar Hafner（ Google Research） Timothy Lillicrap （DeepMind） Mohammad Norouzi （Google Research） Jimmy Ba（ University of Toronto）摘要智能代理需要从过去

RL笔记
z_ai
2025-07-02
124 热度
0评论

Dreamer V1 : DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION

2020年 ICLR DREAM TO CONTROL: LEARNING BEHAVIORS BY LATENT IMAGINATION 作者：Danijar Hafner （Google Brain） Timothy Lillicrap（DeepMind） Jimmy Ba（University of Toronto）这是不是Hinton的学生那个啊 Mohammad Norouzi （Go

RL笔记
z_ai
2025-07-02
11 热度
0评论

World Model

2018年作者：David Ha （Google Brain） J ̈urgen Schmidhuber（ NNAISENSE Swiss AI Lab, IDSIA (USI & SUPSI)）摘要：这篇论文探讨了构建称为\"世界模型\"的生成神经网络模型，用于流行的强化学习环境。世界模型以无监督的方式进行训练，学习环境的压缩空间和时间表示。通过使用从世界模型中提取的特征作为简单代理控

RL笔记
z_ai
2025-07-02
24 热度
0评论

DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

年份 2024 作者Gaoyue Zhou1,∗Hengkai Pan1, Yann LeCun1,2, Lerrel Pinto1 1Courant Institute, New York University, 2Meta-FAIR 摘要根据控制动作预测未来结果的能力是物理推理的基础。然而，这种预测模型（通常称为世界模型）已被证明难以学习，并且通常是为具有在线策略学习的特定任务解决方案而开发

RL笔记
z_ai
2025-07-02
36 热度
0评论