V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

  • V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
  • Mahmoud Assran1,∗, Adrien Bardes1,∗, David Fan1,∗, Quentin Garrido1,∗, Russell Howes1,∗, Mojtaba Komeili1,∗, Matthew Muckley1,∗, Ammar Rizvi1,∗, Claire Roberts1,∗, Koustuv Sinha1,∗, Artem Zholus1,2,∗, Sergio Arnaud1,∗, Abha Gejji1,∗, Ada Martin1,∗, Francois Robert Hogan1,∗, Daniel Dugas1,∗, Piotr Bojanowski1, Vasil Khalidov1, Patrick Labatut1, Francisco Massa1, Marc Szafraniec1, Kapil Krishnakumar1, Yong Li1, Xiaodong Ma1, Sarath Chandar2, Franziska Meier1,∗, Yann LeCun1,∗, Michael Rabbat1,∗, Nicolas Ballas1
  • 1FAIR at Meta, 2Mila – Quebec AI Institute and Polytechnique Montréal ∗Core Team

背景

现代人工智能面临的核心挑战之一是让智能体主要通过观察来学习理解世界并采取行动。V-JEPA 2正是基于这一愿景,探索一种全新的自监督学习路径,旨在构建一个通用的物理世界模型。

  • 现有方法的局限:
    1. 基于交互的模型 (如Dreamer): 严重依赖机器人与环境的交互数据(状态、动作、奖励)。这类数据稀缺且昂贵,限制了模型规模和泛化能力。
    2. 生成式世界模型 (如Sora-like模型): 目标是预测未来视频的每一个像素。这不仅计算成本极高(不适合实时规划),而且会浪费大量模型容量去学习环境中不可预测的细节(如树叶的摇摆),而非任务相关的核心动态。
  • V-JEPA 2的核心思路: V-JEPA 2 提出了一种更高效、更具扩展性的方法。它不追求像素级别的完美重建,而是采用联合嵌入预测架构 (Joint-Embedding Predictive Architecture, JEPA),在抽象的特征空间中进行预测。其核心理念是:只学习和预测世界中那些可预测的部分

方法

V-JEPA 2采用了分阶段的训练策略,结合了海量“世界数据”和少量主动交互数据。

第一阶段:V-JEPA 2 预训练 (无动作世界模型)

此阶段的目标是利用互联网上无穷无尽的视频,让模型学习到关于世界如何运作的通用背景知识。训练了一个1B参数的大模型。

  • 训练数据: 超过100万小时的互联网视频和100万张图片,完全不需要任何动作标签
  • 核心架构 (JEPA):
    • 编码器 (Encoder): 一个Vision Transformer (ViT),输入一段视频,但其中一部分时空区域(patches)被随机遮盖 (mask)
    • 预测器 (Predictor): 另一个ViT,它的任务是根据编码器看到的未遮盖部分,预测出被遮盖区域的特征表示
    • 目标 (Target): 预测的目标并非像素,而是由一个目标编码器 ema encoder(权重是主编码器的指数移动平均值)处理未被遮盖的完整视频后生成的特征。
    • 损失函数: 预测出的特征与目标特征之间的L1距离。这个过程被称为“在特征空间中进行掩码去噪”

上图展示了V-JEPA 2的预训练过程。模型通过观察部分视频(Masked video frames),来预测缺失部分的抽象特征表示,并与完整视频的特征表示(由ema encoder生成)进行比对学习。

  • 成功的关键要素 (Scaling Ingredients):
    1. 数据规模化: 使用了包含2200万视频的庞大数据集。
    2. 模型规模化: 将ViT编码器扩展至10亿乃至更大参数量。
    3. 更长的训练周期: 采用优化的学习率策略,有效利用海量数据。
    4. 渐进式分辨率训练: 训练初期使用低分辨率、短时长的视频,后期逐渐增加,极大地提升了训练效率。

预训练数据集构建

  • 预训练数据集的视频和图像的来源
    • Ego-centric视频:Something-Something v2 (SSv2) 。
    • Exo-centric视频:Kinetics、HowTo100M 和 YT-Temporal-1B (YT1B) 。
    • 图像:ImageNet,通过将单张图片复制成16帧的静态视频来进行训练 。

在训练过程中,使用经验确定的一个加权系数从每个数据源中采样。所产生的数据集,我们称之为VideoMix22M(或VM22M),包含2200万个样本。

下表为数据来源和权重

  • 整理数据集的方法
    • YT1B的精细化过滤:由于YT1B包含大量未标注的噪声数据(140万视频小时),作者采用检索式过滤流程优化数据质量:
  • 场景提取与嵌入:从YT1B视频中提取场景片段[https://github.com/Breakthrough/PySceneDetect],并使用DINOv2 ViT-L为每个场景计算嵌入向量。
  • 基于聚类的检索:以Kinetics、SSv2、COIN和EpicKitchen等数据集作为目标分布,通过聚类匹配场景嵌入,筛选出与目标分布语义相似的视频片段 。
  • 去重验证:确保最终数据不包含目标验证集中的视频 。
  • 加权采样策略
    • 为平衡数据分布,作者设计了一套加权采样方案
    • 聚类权重计算:每个聚类的权重w_c由目标数据集的权重w_d和该聚类中对应数据集的样本数N_{d,c}决定,公式为w_c=\sum_{d=1}^{D} w_d \times \frac{N_{d,c}}{N_d}
    • 目标数据集权重分配:Kinetics 710(K710)权重最高(0.7),SSv2和COIN为0.125,EpicKitchen为0.05
    • 最终调整:通过加权采样使过滤后的YT1B更接近手工标注数据集的分布特性

第二阶段:V-JEPA 2-AC 后训练 (动作条件世界模型)

在第一阶段获得了一个强大的视觉“大脑”后,此阶段的目标是教会它理解动作,并将其用于机器人规划。

  • 训练数据: 仅需约62小时的、无标签的机器人交互视频(来自Droid数据集),包含视频帧、动作和机器人末端执行器的位姿。
  • 核心架构:
    • 冻结编码器: 将第一阶段预训练好的V-JEPA 2编码器完全冻结,作为通用的视觉特征提取器。
    • 训练新的预测器: 训练一个全新的、能理解动作的预测器 (Action-Conditioned Predictor)。这是一个自回归的Transformer模型。
    • 输入: 历史的 (编码后的视频帧, 机器人状态, 机器人动作) 序列。
      • 视频帧:4秒,每秒4帧总共16帧,256*256分辨率
      • 状态s_{k, k \in [16]}:7维向量 (3D位置, 3D姿态, 1D夹爪)
      • 动作a_{k, k\in [15]}:相邻帧的状态变化量s_{k+1}-s_k
    • 输出: 预测下一帧的特征表示。
  • 损失函数: 结合了教师强制 (teacher-forcing)损失(用真实数据指导单步预测)和滚动 (rollout)损失(让模型基于自己的预测进行多步预测),这能有效减少长期预测中的误差累积。

其中 T = 15

其中T = 2

上图为训练过程的可视化,左边是teacher forceing loss,预测器将当前帧表示的编码作为输入,并学习预测下一个时间步的表示。右边为 rollout loss 将预测器的输出反馈作为输入,允许模型被训练以预测几个时间步之后的内容。

即teacher forceing loss使用真实图像作为输入,而rollout loss 只有第一帧是真实图像,后续输入的图像都是基于预测的特征,通过加权融合这两个loss平衡了偏差和方差。

实验

V-JEPA 2的能力体现在三个方面:规划、理解和预测。

规划能力 (Planning): 零样本机器人控制

这是V-JEPA 2-AC的直接应用,展示了其作为世界模型的最终价值。

  • 任务设定: 给定一个当前场景的图像和一个目标场景的图像。
  • 规划方法: 采用模型预测控制 (MPC),并使用交叉熵方法 (CEM) 作为优化器(与DINO-WM类似)。
  • 核心过程:
    1. 在V-JEPA 2-AC的“想象”中,搜索能最小化“预测的未来特征”“目标图像特征”之间L1距离的动作序列。
    2. 执行最优动作序列的第一个动作。
    3. 观察新状态,重复以上过程。
  • 实验结果: 成功地在真实世界的Franka机器人上实现了零样本的抓取、放置等任务,无需在目标环境中进行任何额外训练。其规划效率远超生成式模型(每个动作规划耗时16秒,而基于视频生成的模型需要4分钟)。

理解与预测能力 (Understanding & Prediction)

这部分评估的是第一阶段预训练出的基础模型 (V-JEPA 2) 的通用能力。

  • 动作/物体分类 (理解): 在冻结的V-JEPA 2编码器上训练一个小型探针网络,在多个视频理解基准(如Something-Something v2)上取得了SOTA性能,尤其擅长理解动态/运动信息
  • 视频问答 (理解): 将V-JEPA 2与大语言模型(LLM)对齐后,在多个需要物理和时序推理的视频问答基准上同样达到SOTA水平。
  • 人类行为预测 (预测): 在Epic-Kitchens-100数据集上,模型能准确预测出接下来1秒内可能发生的行为,性能超越了专为此任务设计的模型。

模型对比

特性V-JEPA 2DINO-WMDreamer
核心思想在特征空间中进行掩码预测预训练特征空间中进行未来预测在学习的潜在空间中进行未来预测
视觉编码器从零学习,通过自监督获得使用预训练、冻结的DINOv2从零学习,在线优化
训练数据海量互联网视频 + 少量交互数据离线交互数据在线交互数据
主要目标去噪被遮盖的特征预测下一个状态的特征重建图像、预测奖励等
规划方式基于动作条件模型的MPC规划基于动作条件模型的MPC规划学习一个Actor-Critic策略
关键优势可扩展性强,模型通用性好概念简单,高效利用预训练知识端到端在线学习,性能强大