强化学习的数学原理

Chapter 1 Basic Concepts 1.1 State and Action states, states space, actions, action space, 1.2 State transition When taking an action, the agent may move from one state to another. Such a process is c

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

背景 现代人工智能面临的核心挑战之一是让智能体主要通过观察来学习理解世界并采取行动。V-JEPA 2正是基于这一愿景,探索一种全新的自监督学习路径,旨在构建一个通用的物理世界模型。 方法 V-JEPA 2采用了分阶段的训练策略,结合了海量“世界数据”和少量主动交互数据。 第一阶段:V-JEPA 2 预训练 (无动作世界模型) 此阶段的目标是利用互联网上无穷无尽的视频,让模型学习到关于世界如何运作的

NWM: Navigation World Models

Teaser 背景 导航是具备视觉-运动能力的智能体的基本技能。当前的导航方法,尤其是监督学习策略(如NoMaD),一旦训练完成,其行为模式就被“固化”,难以在规划时动态地加入新的约束(例如,“禁止左转”),也无法为难题动态分配更多计算资源。 为了解决这些局限性,NWM (Navigation World Model) 被提出。它并非直接学习一个从观测到动作的策略,而是构建一个可控的视频生成模型,

Dreamer V2: MASTERING ATARI WITH DISCRETE WORLD MODELS

2021年 ICLR MASTERING ATARI WITH DISCRETE WORLD MODELS 作者: Danijar Hafner( Google Research) Timothy Lillicrap (DeepMind) Mohammad Norouzi (Google Research) Jimmy Ba( University of Toronto) 摘要 智能代理需要从过去

World Model

2018年 作者:David Ha (Google Brain) J ̈urgen Schmidhuber( NNAISENSE Swiss AI Lab, IDSIA (USI & SUPSI)) 摘要: 这篇论文探讨了构建称为\"世界模型\"的生成神经网络模型,用于流行的强化学习环境。世界模型以无监督的方式进行训练,学习环境的压缩空间和时间表示。通过使用从世界模型中提取的特征作为简单代理控

DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

年份 2024 作者Gaoyue Zhou1,∗Hengkai Pan1, Yann LeCun1,2, Lerrel Pinto1 1Courant Institute, New York University, 2Meta-FAIR 摘要 根据控制动作预测未来结果的能力是物理推理的基础。然而,这种预测模型(通常称为世界模型)已被证明难以学习,并且通常是为具有在线策略学习的特定任务解决方案而开发