研究论文分析：《Cosmos 3: Omnimodal World Models for Physical AI》

研究论文分析：Cosmos 3: Omnimodal World Models for Physical AI

本报告对 NVIDIA 的研究论文：Cosmos 3: Omnimodal World Models for Physical AI

1. 作者及机构

这项研究由NVIDIA 的一个大型贡献者团队完成。贡献者名单列于论文的附录 G 中，他们参与了项目的各个方面，包括监督、模型架构、数据整理、训练方案开发和基础设施。

2. 这项工作如何融入更广泛的研究领域

开发能够在现实世界中感知、推理和行动的智能体（通常称为物理人工智能）是一个重要的研究领域。该领域以往的研究大多将此类智能体所需的基本能力进行细分。这导致了针对特定功能开发出不同的模型：例如，用于感知和推理的判别模型，如视觉语言模型（VLM）；用于世界模拟的生成模型，如视频生成模型和前向动力学模型；以及用于动作预测的模型，如视觉语言动作（VLA）模型和世界动作模型（WAM）。

作者认为，这种传统的范式分离存在局限性，因为理解世界本质上涉及对世界未来演变和行为后果的推理，而生成则需要对世界和智能体行为进行结构化表征。现有方法通常需要将这些不同的模型整合到复杂且分散的流程中，这可能并非最优，且计算效率低下。

Cosmos 3 定位于不断发展的全模态基础模型领域，旨在将多模态理解和生成统一到一个框架内。虽然之前的全模态模型已经探索了文本、图像、音频和视频的组合，但对物理世界动力学、动作条件生成、逆动力学和具身控制的关注相对较少。这项工作以生成式世界模型（以仿真作为主要建模接口）的概念为基础并加以扩展，将其与结构化的多模态理解和动作能力相结合。它还利用了多模态理解、视频生成和视听生成方面的最新进展，旨在通过为物理人工智能提供通用骨干网络来克服特定领域解决方案的局限性。

3. 主要目标和动机

本研究的主要目标是推出 Cosmos 3，它是一系列全模态世界模型，旨在统一的 Transformer 混合模型 (MoT) 架构中联合处理和生成语言、图像、视频、音频和动作序列。该统一框架旨在作为物理人工智能代理的通用骨干网络。

其核心动机源于直接在现实世界中训练物理人工智能体所面临的挑战。此类训练速度慢、成本高，且可能存在安全隐患。为了克服这些瓶颈，研究人员旨在模拟世界中建立一个可扩展的训练环境。该环境将使智能体能够获得两种内在关联的能力：理解和生成。理解能力使智能体能够从部分观察中推断潜在的表征、语义和动态信息，而生成能力则使它们能够预测和模拟未来状态、预判世界演变并确定适当的行动。

本文指出现有研究范式的一个关键局限性，即理解和生成能力大多是独立开发的。作者提出，将这些能力整合到一个可扩展的单一框架中，对于物理人工智能至关重要。他们以一个执行清洁任务的家用机器人为例进行说明。在现有分散的范式下，完成这项任务需要协调多个不同的模型（VLM、VLA/WAM、前向动力学模型）。Cosmos 3 旨在通过提供一个原生集成感知、仿真和执行的单一模型来解决这个问题，而无需针对不同任务进行架构修改。这种统一性被认为能够通过共享表征和联合多任务监督实现可扩展的学习。

此外，Cosmos 3 的提出旨在解决物理人工智能代理训练数据和环境扩展方面长期存在的瓶颈问题。该模型旨在通过以下三种方式应对这一挑战：

合成数据生成： 通过合成高保真、多样化的视觉数据来增强物理人工智能代理的训练。
特定任务专业化： 通过提供强大的训练中期模型，为适应各种任务和实例提供稳健的起点，并通过数据驱动的专业化来保持通用的世界表示。
训练环境创建： 从长远来看，Cosmos 3 的目标是为物理 AI 代理生成复杂、高质量的训练环境。

4. 方法论和途径

Cosmos 3 采用 Transformer 混合 (MoT) 架构，能够处理和生成包括语言、图像、视频、音频和动作在内的多模态序列。

4.1. 模型架构 该架构集成了特定模态的编码器，将各种输入投影到统一的表示空间中，以便由 MoT 主干网进行处理。

编码器：
- 图像和视频： 使用预训练的视觉语言对齐算法训练的ViT编码器进行视觉理解，使用来自Wan2.2-TI2V-5B的视频VAE编码器进行视觉生成。ViT特征通过DeepStack进行聚合，并交错插入基于文本的视频时间戳。VAE编码器在训练过程中保持冻结状态。
- 音频： 音频生成采用音频变分自编码器（VAE）（Lee等人，2025b），将原始立体声音频编码成标记。该编码器也被冻结。
- 动作： 我们开发了一个统一的动作接口，用于表示异构的具身控制（例如，自动驾驶车辆、机器人、人体运动）。动作由自我姿态（3D平移+6D旋转伪动作）、执行器姿态和抓取状态组成。领域感知输入和输出投影层能够处理不同长度的动作向量，同时共享MoT主干网络。
词元排列与生成模式： 输入词元序列由用于推理的自回归（AR）子序列（语言、ViT编码的视觉信息）和用于生成的扩散（DM）子序列（VAE编码的视觉信息、音频信息、动作信息）组成。AR词元由专用推理器路径处理，而DM词元由生成器路径处理，并通过联合注意力机制与AR词元进行交互。
混合Transformer（MoT）架构： 每个Transformer解码器层都有两组参数：一组用于推理塔（AR tokens），另一组用于生成器塔（DM tokens）。两条路径均由预训练的VLM共同初始化。AR tokens使用因果自注意力机制，而DM tokens使用完全双向注意力机制，同时关注AR tokens和DM tokens。
多模态位置嵌入： 采用具有绝对时间索引的 3D 多模态 RoPE (MRoPE) 将视频、音频和动作标记沿共享的物理时间轴对齐，以适应不同的采样率。在 AR 和 DM 子序列之间插入固定的时间间隔，以减少伪影。
模型变体： Cosmos 3 开发了三种规模：Edge（40 亿参数）、Nano（160 亿参数，从 Qwen3-VL 80 初始化）和 Super（640 亿参数，从 Qwen3-VL 320 初始化）。

4.2. 数据管理和培训 Cosmos 3 培训包括推理器和生成器路径的不同但互补的课程，采用多阶段策略。

推理器数据： 约 2420 万个样本，其中 2200 万个用于预训练，220 万个用于监督微调。
- 预训练： 主要由图像-文本和纯文本数据组成（来自 Nemotron Nano 2 数据集的 1970 万个样本，另有 230 万个样本用于数学、视频、空间定位和指令跟随训练）。数据经过语义去重和 AI 评判质量过滤（使用 Gemma-4 作为评判标准）。
- 监督式微调 (SFT)： 专注于物理 AI 专业化，拥有 220 万个样本（50% 为视频文本），涵盖自动驾驶汽车、机器人和智能基础设施领域，以及一般的空间和时间理解。
生成器数据： 循序渐进的多阶段课程。
- 预训练： 使用 7.67 亿张图像和 3.477 亿个视频片段，这些图像和视频片段分别由 78 亿张原始图像和 30 亿个原始视频处理而来。数据经过嵌入、去重、分类和质量过滤（使用 VLM 模型进行图像标注，使用 DOVER 评分评估视频质量）等步骤进行整理。支持多分辨率训练（256p、480p、720p），并支持文本转图像、文本转视频、图像转视频和视频转视频等任务。音频数据来源于视频池（包含 1.389 亿个视频片段）。
- 训练中期： 利用高质量真实数据、合成数据（SDG-PhyxSim、SDG-RobotSim、SDG-DriveSim、SDG-SynHuman、SDG-Warehouse）和视频迁移数据提高生成质量。引入动作数据（840万集，6.13万小时，涵盖以自我为中心的运动、视听、机器人、摄像机运动）和迁移数据（使用边缘、模糊、深度、分割、世界场景地图进行控制条件生成）。
- 训练后： 使用目标数据集对 Cosmos3-Super-Text2Image、Cosmos3-Super-Image2Video 和 Cosmos3-Nano-Policy-DROID 等特定领域模型进行专门化。
训练目标： 在所有模态中实现修正后的流匹配目标。单个去噪器从噪声潜在变量中预测恒定速度。
优化： 推理器使用 AdamW 算法，生成器使用 FusedAdamW 算法。生成器预训练期间仅更新生成器特有的参数，推理器塔保持冻结状态。时间位置编码采用帧率调制。

4.3. 基础设施 一个全面的基础设施堆栈支持 Cosmos 3 的整个生命周期。

数据基础设施（SILA）： 可扩展的多模态数据基础设施，用于大规模分布式处理、嵌入存储（带有向量索引的 LanceDB）、可视化、检查和调试原始多模态数据到 WebDataset 格式的训练分片。
训练基础设施： 一个用于分布式 GPU 训练的定制平台，采用 Ulysses 方案，利用混合分片数据并行 (HSDP) 和上下文并行 (CP)。其特性包括：基于标记预算的打包序列、联合数据加载器、秩同步流选择、前瞻打包、 torch.compile Transformer 模块的选择性激活检查点、优化的视频分词器（分块编码、AOT 编译）以及异步检查点。
服务基础设施： 生产级服务框架，可实现高效、低延迟的推理。推理器模型由 TensorRT-LLM 和 vLLM 支持。生成器模型由 vLLM-Omni 支持，后者包含 Cache-DiT、Ulysses CP、CFG-Parallel、HSDP、CPU 卸载、VAE-Patch-Parallel 和量化等优化。此外，还提供了一个纯 PyTorch 参考实现。
基准基础设施： 一个统一的评估系统，用于管理评估作业、存储生成的工件，并根据各种基准（包括自动化指标、基于 VLM 的评判员和人工评估）跟踪结果。

5. 主要发现和结果

Cosmos 3 的评估涵盖了与物理人工智能相关的各种理解和生成任务，并将其变体（Edge、Nano、Super）与专门的开源和专有模型进行了比较。

5.1. 推理器评估 Cosmos 3 推理器模型在 48 个基准测试中表现出色，这些基准测试分为通用多模态理解、机器人、智能基础设施和自动驾驶。

总体性能： Cosmos 3 模型在性能上与开源模型不相上下，尽管 Gemini 3.1 Pro 的得分通常更高。与前代产品 Cosmos-Reason2 相比，Cosmos 3 的总体性能有所提升。
领域特定推理： 在机器人、智能基础设施和自动驾驶领域，Cosmos 3 的性能普遍优于开源模型和一些闭源模型（例如 RynnBrain、Mimo-Embodied 和 Gemma-4）。在机器人领域，其性能与 Gemini 3.1 Pro 相比略有差距。

5.2. 生成器评估 生成器组件在图像生成、视频生成、视听生成、转移生成和动作生成（正向动力学、逆向动力学和机器人策略）方面进行了评估。

图像生成：
- Cosmos3-Super-Text2Image 的 UniGenBench 得分为 91.36，并展示了其在精确场景文本渲染（CVTG 得分）方面的能力。
- 它在人工智能分析文本到图像排行榜上名列开源模型性能榜首，总排名第四。
视频生成：
- PAIBench-G： Cosmos3-Super 在文本转视频 (80.0) 和图像转视频 (82.8) 任务中，在开源模型中获得了最高的总体得分，在某些方面优于 Veo-3.1 等模型。
- RBench： Cosmos3-Nano 的得分为 58.4%，在具身机器人场景的开源模型中领先。
- Physics-IQ： Cosmos3-Super 在物理一致性方面，图像到视频（使用 WMReward+BoN 时为 48.9）和视频到视频（使用 WMReward+BoN 时为 63.4）均取得了最先进的结果。
- 人为评估（Cosmos HUE & HWB）：
  - Cosmos3-Super 在 Cosmos HUE 的文本转视频 (89.3) 和图像转视频 (89.6) 测试中均位列开源模型榜首，其性能可与领先的闭源系统相媲美。尤其在文本转视频的音视频和物理维度，以及图像转视频的视觉完整性、机器人技术和杂项维度方面，Cosmos3-Super 表现优异。
  - 在模拟真实人体运动的“人类世界基准测试”（HWB）中，Cosmos3-Super 在所有评估模型中获得了最高分（71.9 分），超过了闭源基线。
- Cosmos3-Super-Image2Video 在 Artificial Analysis Image-to-Video 排行榜（无音频）上排名第一，属于开放权重模型。
音频生成： 在 Cosmos-SoundBench 测试中，Cosmos3-Nano 和 Super 展现出较高的语义音频正确性和视听一致性，表明声音事件能够有效地融入生成的视频中。然而，闭源系统在感知音频质量方面表现更佳。
迁移生成： Cosmos 3 在各种控制模式（深度、分割、模糊、边缘）和自动驾驶场景（AVBench-C）中均达到或超过了 Cosmos-Transfer2.5 基线的性能，在统一的主干网中展现出强大的控制保真度。
行动生成：
- Cosmos 3 被评估为在自主车辆、相机运动、以自我为中心的运动和机器人等领域中，在正向动力学、逆向动力学和策略模式下，都是一个高效的动作基础模型。
- 对于新的实现和环境（例如 LIBERO-10），中期训练初始化（MT-init）与预训练初始化（PT-init）相比，始终能产生更好的结果和更快的适应速度。
- 机器人策略： Cosmos3-Nano-Policy-DROID 在 RoboLab 上取得了最先进的结果（在特定指令下成功率为 39.7%），并在 RoboArena 真实世界基准测试中排名第一，证明了其作为机器人操作策略模型的有效性。
- 当动作被联合预测时，预测的视频帧与模拟器运行结果之间观察到了很强的一致性。

5.3. 消融研究（附录 E）

研究发现，推理器组件为生成器提供了有益的嵌入，尤其是在物理人工智能领域。
文本控制和 MRoPE FPS 调制相结合被认为是生成过程中 FPS 控制最有效的方法。
在预训练期间加入音频数据并没有降低视频生成质量，反而带来了一定的好处。
正向动力学、逆向动力学和策略模式之间的联合训练展现了协同效应，联合检查点提供了更优越的策略覆盖范围和逆向动力学准确性。

6. 重要性和潜在影响

Cosmos 3 代表了用于物理交互的综合人工智能系统发展的一个里程碑。其主要意义在于将 涵盖语言、图像、视频、音频和动作等多种模态的理解和生成能力 统一到一个可扩展的 Transformer 混合架构中。这种方法旨在降低集成多个专用模型所带来的复杂性和计算开销，从而促进具身智能体更全面、更高效的学习过程。

Cosmos 3 的潜在影响是多方面的：

推进物理人工智能： Cosmos 3 使智能体能够在统一的框架内进行感知、推理、模拟和行动，从而助力开发功能更强大、用途更广泛的物理人工智能智能体。这对于机器人、自动驾驶和智能基础设施等应用尤为重要，因为在这些领域，连贯的理解和预测能力至关重要。
增强型训练范式： 该模型旨在解决物理人工智能训练数据和环境规模化所面临的挑战。其目标是：
- 生成高保真合成数据： 提高专业代理训练数据的多样性和质量。
- 为专业化提供坚实的基础： 提供一个中期训练模型，该模型无需架构修改即可有效地适应特定任务和实例，利用学习到的通用世界动态和动作先验。
- 创建复杂的训练环境： 有可能生成完整的、高质量的模拟环境，用于智能体训练。
提升模型效率和一致性： 统一的架构结合先进的训练和服务基础设施，旨在增强模型在不同模态下保持时间一致性、物理合理性和因果理解的能力。这将有助于构建更强大、更可靠的人工智能系统，用于与物理世界交互。
加速开放研究： NVIDIA 决定以开源许可发布代码、模型检查点（Cosmos3-Nano 和 Cosmos3-Super）、精选合成数据集（例如 SDG-PhyxSim、SDG-RobotSim）以及评估基准（Cosmos-HUE），旨在促进更广泛的研究并加速物理人工智能的发展。这种开放获取方式将使研究人员和开发人员能够在此基础上进行拓展，尝试新的想法，并为该领域的共同进步做出贡献。

总体而言，Cosmos 3 被视为连接合成世界和现实世界的桥梁，为创建能够在复杂的物理环境中更自主、更理解地运行的智能体奠定了基础。