Genie: Generative Interactive Environments
- RL笔记
- 2025-07-02
- 12热度
- 0评论
年份 2024-2-26 Google DeepMind
作者 Jake Bruce*,1, Michael Dennis*,1, Ashley Edwards*,1, Jack Parker-Holder*,1, Yuge (Jimmy) Shi*,1, Edward Hughes1, Matthew Lai1, Aditi Mavalankar1, Richie Steigerwald1, Chris Apps1, Yusuf Aytar1, Sarah Bechtle1, Feryal Behbahani1, Stephanie Chan1, Nicolas Heess1, Lucy Gonzalez1, Simon Osindero1, Sherjil Ozair1, Scott Reed1, Jingwei Zhang1, Konrad Zolna1, Jeff Clune1,2, Nando de Freitas1, Satinder Singh1 and Tim Rocktäschel*,1
1 Google DeepMind, 2 University of British Columbia
摘要
我们介绍了 Genie,这是第一个从未标记的 Internet 视频中以无监督方式训练的生成式交互式环境。可以提示模型生成无穷无尽的可动作控制虚拟世界,这些虚拟世界通过文本、合成图像、照片甚至草图进行描述。在 11B 参数下,Genie 可以被视为基础世界模型。它由一个时空视频分词器、一个自回归动力学模型和一个简单且可扩展的潜在动作模型组成。 Genie 使用户能够在生成的环境中逐帧操作,尽管训练没有任何真实动作标签或世界模型文献中常见的其他特定领域的要求。此外,由此产生的学习潜在动作空间有助于训练代理模仿看不见的视频中的行为,为训练未来的通才代理开辟了道路。
主要结论
1、使用ST transformer对视频进行特征提取
2、只使用Video训练,连actions都不需要,只用视频,action用了一个单独的模型预测(LAM latent action model)
3、用提取的特征在Dynamics model预测后续视频帧
4、推理的流程
学习的内容
1、跟其他的World Model不一样,其他的世界模型是从经验数据集中采样学习世界模型,但是Genie不是(也可以是),其他模型采样的话需要o和a r等,在这里的话不需要了,只需要o就行了
疑问
1、TWM中的Transformer换成ST?内存效率更高
2、不太明白模型是怎么将自己学习的action跟我们操作play时候的action对应起来的