NWM: Navigation World Models

z_ai
RL笔记
2025-07-02
29热度
0评论

Navigation World Models
Amir Bar1 Gaoyue Zhou2 Danny Tran3 Trevor Darrell3 Yann LeCun1,2
1FAIR at Meta 2New York University 3Berkeley AI Research

Teaser

背景

导航是具备视觉-运动能力的智能体的基本技能。当前的导航方法，尤其是监督学习策略（如NoMaD），一旦训练完成，其行为模式就被“固化”，难以在规划时动态地加入新的约束（例如，“禁止左转”），也无法为难题动态分配更多计算资源。

为了解决这些局限性，NWM (Navigation World Model) 被提出。它并非直接学习一个从观测到动作的策略，而是构建一个可控的视频生成模型，通过模拟（想象）未来的视觉观测来辅助规划。

核心目标:
1. 灵活规划: 能够在规划时动态加入约束。
2. 可扩展计算: 能够通过增加模拟（计算）量来解决更复杂的导航问题。
3. 通用性: 构建一个能够跨越不同环境和智能体（机器人、人类）的通用导航模型。
NWM的核心思路: 训练一个生成式世界模型，该模型接收过去的观测和导航动作，然后生成（预测）未来的视觉画面。通过模拟不同的动作序列会产生什么样的未来，智能体可以选择最优的路径以达到目标。这本质上是一种基于模拟的规划。

方法

NWM的核心是一个新颖的生成模型架构——条件扩散Transformer (Conditional Diffusion Transformer, CDiT)。它被设计用来高效地处理视频序列并根据导航动作生成未来的帧。

问题设定:

输入: 过去的m个视觉观测（图像）s_{\tau} = (s_{\tau}, ..., s_{\tau-m})和一个导航动作a_{\tau}。
动作a_{\tau}的构成:
1. 位移 (u): 控制前后左右的移动。
2. 偏航角 (\phi): 控制水平方向的旋转。
3. 时间步长 (k): 一个创新的设计，指定了模型需要预测未来（或过去）多远的时间点，允许模型学习时间动态。
输出: 预测的未来状态（图像）s_{\tau + 1}。

模型架构 (CDiT):

基础: 它是一个基于Transformer的扩散模型，但在处理时序数据时进行了关键优化。
输入处理:
1. 图像编码: 使用预训练的VAE（与Stable Diffusion相同）将图像压缩到更紧凑的潜在空间。
2. 条件嵌入: 将导航动作（位移、旋转）和时间步长k、扩散步数t等条件信息编码成一个统一的向量\xi。
CDiT Block的关键设计:
- 高效的注意力机制:
  - 自注意力 (Self-Attention): 只在当前需要去噪的目标帧的tokens之间进行，避免了在所有历史帧上进行复杂的计算。
  - 交叉注意力 (Cross-Attention): 让目标帧的每个token去“关注”所有历史帧的tokens，从而高效地融入上下文信息。
- 优势: 这种设计的计算复杂度与历史帧数（上下文长度）成线性关系，而非标准Transformer的平方关系，这使得模型能够处理更长的视频上下文，同时计算成本显著降低（比标准DiT快4倍）。

上图展示了CDiT Block的内部结构。未来状态（Future State）的token首先经过自注意力层处理，然后通过交叉注意力层从历史状态（Context States）中获取信息，整个过程都受到动作、时间等条件（Conditioning）的调制。

训练目标: 模型训练的目标是最小化真实未来图像的潜在表示与模型去噪后预测的潜在表示之间的均方误差。通过在不同噪声水平上进行训练，模型学会了从噪声中恢复出清晰且符合物理和动作规律的未来图像。

规划能力 (Planning)

独立规划 (Standalone Planning):
- 方法: 采用模型预测控制（MPC），并使用交叉熵方法（CEM）进行优化（与DINO-WM、V-JEPA 2-AC类似）。
- 过程: 给定一个目标图像，CEM会采样一系列候选动作序列。NWM会为每个序列模拟出最终的画面。通过计算模拟画面与目标图像之间的感知相似度（如LPIPS、DreamSim），找到得分最高的动作序列并执行。
- 结果: NWM的独立规划能力达到了SOTA水平，甚至优于专门的导航策略模型。
约束规划 (Planning with Constraints):
- NWM可以轻松地加入约束。例如，要实现“先直行5步再转弯”，只需在CEM优化时，将前5步的转弯动作强制设为零即可。实验证明NWM能有效遵守这些约束。
辅助现有策略 (Ranking Trajectories):
- NWM可以用来“增强”一个已有的导航策略（如NoMaD）。具体做法是：让NoMaD生成多个候选轨迹，然后用NWM对每个轨迹进行模拟打分，最后选择得分最高的轨迹。这种方法显著提升了原有策略的性能。

实验

实验设定

数据集:
- 有标签数据: 训练集混合了多个机器人导航数据集，包括SCAND、TartanDrive、RECON和HuRoN。这些数据集提供了机器人视角视频及其对应的位置和旋转信息，用于推断导航动作。
- 无标签数据: 为了提升模型的泛化能力，额外使用了Ego4D数据集中的人类第一视角视频进行训练，这些数据只利用了时间变化作为动作。
- 评估数据集: 在已知环境（如RECON）和未知环境（Go Stanford）上进行评估。
评估指标:
- 轨迹精度: ATE (绝对轨迹误差), RPE (相对位姿误差)。
- 图像相似度: LPIPS, DreamSim (感知相似度), PSNR (像素级质量)。
- 视频生成质量: FVD (Fréchet Video Distance)。
基线模型:
- DIAMOND: 基于U-Net的扩散世界模型。
- GNM: 一个通用的目标条件导航策略。
- NoMaD: 一个基于扩散模型的SOTA导航策略。
实现细节:
- 默认使用10亿参数的CDiT-XL模型。
- 上下文长度为4帧。
- 使用Stable Diffusion的VAE作为图像编解码器。
- 使用AdamW优化器进行训练。

消融实验

在RECON数据集上对单步4秒后的未来预测进行评估，验证模型设计的有效性。

模型架构对比 (CDiT vs. DiT): 实验表明，CDiT在性能和效率上全面优于标准的DiT。即使在参数量相当的情况下（如CDiT-L对比DiT-XL），CDiT的计算量（TFLOPs）仅为DiT的1/4，但预测误差（LPIPS）更低。这证明了CDiT通过分离自注意力和交叉注意力的设计，在处理视频时序数据上更具优势。
多目标训练: 将每个上下文对应的未来目标帧数量从1增加到4，模型的预测性能在所有指标上都有显著提升。这表明为模型提供多样化的未来可能性，有助于其学习更鲁棒的动态表示。
上下文长度: 将上下文帧数从1增加到4，预测性能同样得到提升。更多的历史信息有助于模型更好地“追踪”当前状态，避免“迷路”。
动作与时间条件: 对比“仅时间”、“仅动作”和“时间和动作”三种条件输入。结果显示，仅有时间条件时模型性能最差，而同时使用时间和动作条件能达到最佳效果，证明了这两种信息对于精确预测未来至关重要。

视频预测与生成

预测准确性: 在已知环境中，让NWM和DIAMOND根据真实的动作序列自回归地预测长达16秒的视频。结果显示，NWM的预测在各个时间点上都远比DIAMOND准确（FID和LPIPS指标更优）。有趣的是，NWM在1 FPS下的短期预测优于4 FPS，但随着时间变长，误差累积导致其性能下降，此时4 FPS的版本因上下文更密集而表现更优。
生成质量: 通过FVD指标评估，NWM在所有测试数据集上生成的视频质量都显著高于DIAMOND。

导航规划实验

独立规划: NWM无需任何策略网络，仅通过自身的模拟和规划就能实现SOTA级别的导航性能。在RECON数据集上，其轨迹误差（ATE/RPE）低于GNM和NoMaD。
约束规划: 实验验证了NWM在规划时遵守动态约束的能力。例如，在“先左/右转弯，再前进”的约束下，NWM能够规划出满足条件的路径，且与无约束路径的终点偏差很小。
辅助现有策略: NWM可以作为“评估器”来增强现有导航策略。通过让NoMaD生成32个候选轨迹，再用NWM模拟并选出最优的一个，最终的导航性能在所有数据集上都得到了稳定提升。

泛化到未知环境

无标签数据的作用: 将无标签的Ego4D视频加入训练后，NWM在未知的Go Stanford数据集上的预测能力显著增强。这表明模型从多样化的人类第一视角视频中学到了通用的视觉和动态先验知识，有助于其在新环境中进行“想象”。
想象能力: 在从未见过的网络图片上，NWM仅根据一张初始图片和给定的虚拟动作，就能生成连贯、合理的导航视频，展现了其强大的想象和泛化能力。
失败案例: NWM也存在局限性。在未知环境中进行长期想象时，可能会出现“模式坍塌”现象，即生成的画面逐渐偏离当前场景，趋向于训练数据中更常见的模式。

不足

对于分布外数据，模型会缓慢丢失上下文，并从未知数据生成类似于训练数据的下一状态，也就是存在模式奔溃现象

目前难以模拟如行人运动等时间动态。
目前仅使用3自由度(DoF)导航动作，没有扩展到6自由度以及更多（如控制机器人臂的关节）。

四、模型对比

特性	NWM	V-JEPA 2	DINO-WM	Dreamer
核心思想	在潜在空间中进行条件视频生成	在特征空间中进行掩码预测	在预训练特征空间中进行未来预测	在学习的潜在空间中进行未来状态预测
视觉编码器	使用预训练的VAE	从零学习，通过自监督获得	使用预训练、冻结的DINOv2	从零学习，在线优化
训练数据	机器人导航视频 (+可选的无标签视频)	海量互联网视频 + 少量交互数据	离线交互数据	在线交互数据
主要目标	生成高质量的未来图像	去噪被遮盖的特征	预测下一个状态的特征	重建图像、预测奖励等
规划方式	基于视频模拟的MPC规划	基于特征预测的MPC规划	基于动作条件模型的MPC规划	学习一个Actor-Critic策略
关键优势	规划过程可解释(能看到想象的画面)，灵活支持约束	模型通用性好，数据来源广泛	概念简单，高效利用预训练知识	端到端在线学习，性能强大