清华大学最新综述！理解世界or预测未来？一文读懂世界模型！

清华大学最新关于世界模型（World Models）的综述论文，将世界模型分为理解世界和预测未来两大类，系统梳理了世界模型相关研究，涵盖概念、分类、研究进展、应用领域以及面临的挑战和未来发展方向等方面。

论文地址：

https://arxiv.org/abs/2411.14499

世界模型的概念与分类

定义：世界模型被认为是实现通用人工智能（AGI）的重要环节，终极目标是构建一个统一的模型能够复制基本的世界动态。这篇论文将世界模型解释为理解世界动态并预测未来场景。

分类依据：世界模型主要分为理解世界和预测未来两大视角——即构建内部表示以理解世界机制，预测未来状态以模拟和指导决策。

世界模型的研究进展

理解世界

1. 决策中的世界模型

在决策任务中，理解环境是决策生成的主要任务。这篇综述描述了利用世界模型进行决策的两种方案：在基于模型的强化学习（Model-based RL， MBRL）使用世界模型和基于语言 backbone 的世界模型。

MBRL 中的世界模型

在决策任务中，世界模型的概念主要指 MBRL 中的环境模型。决策问题通常可以构建为马尔可夫决策过程，世界模型包含状态转移动态和奖励函数，MBRL 的关键任务在于学习和利用世界模型中的转移动态来优化策略。

世界模型学习：可通过最小化均方预测误差或 KL 散度来学习世界模型，对于高维状态空间可采用表示学习提升效果。

基于世界模型的策略生成：生成策略的常用方法有模型预测控制（MPC）和蒙特卡洛树搜索（MCTS）等。

基于语言 backbone 的世界模型

大语言模型的发展为世界模型提供了新途径。大语言模型（LLM）和多模态大语言模型（MLLM）可直接部署用来理解决策任务中的世界环境，支持生成动作或作为模块与其他规划算法结合，用来提升决策质量，从而在机器人导航等任务中发挥作用。

2. 模型学习的世界知识

全局物理世界知识：有论文提供了证据 LLM 真正获得了世界空间和时间知识，但这种知识的质量难以保障。尽管 LLM 已经展示了捕捉现实世界某些方面的能力，在空间和时间知识以及城市知识等方面存在不足，需要进一步努力来增强这种知识，以实现更广泛和更可靠的现实世界应用。

局部物理世界知识：理解和建模局部物理世界对构建综合世界模型至关重要，认知地图概念有助于机器人理解外部世界，研究探索通过类似认知地图的过程让模型学习抽象知识。

人类社会知识：理解人类社会是世界模型的重要方面，其中一个相关的理论为心理理论（Theory of Mind），总结了多篇论文研究通过多种方式探索 LLM 在心理理论任务中的表现和提升方法。

预测未来

1. 作为视频生成的世界模型

朝着视频世界模型发展：视频世界模型通过处理视觉信息预测未来状态，以 Sora 为代表的模型可生成高质量视频，但存在因果推理和物理规则模拟不准确等局限。后续模型在视频长度、多模态集成、交互性和适应多样化环境等方面不断改进。

视频世界模型的能力：理想的视频世界模型应具备长期预测能力、多模态集成能力、交互性和适应多样化环境的能力，以更好地模拟和预测复杂环境。

2. 作为具身环境的世界模型

室内环境：室内环境为智能体提供结构化场景，早期工作如 AI2 - THOR 等主要提供视觉信息，后续工作不断扩展数据模态，引入如激光雷达、音频等信号，增加社交维度，部分工作还支持通过语言指令生成任意室内环境。

室外环境：创建室外环境面临更大挑战，现有工作如 MetaUrban 等关注城市环境，利用生成技术的 UrbanWorld 可创建更复杂的城市空间，还有虚拟开放世界平台如 MineDOJO 可模拟更具挑战性的环境。

动态环境：动态环境利用生成模型创建实时模拟，如 UniSim 等模型可根据输入条件生成多样化环境，为智能体提供丰富训练体验，Pandora 等工作进一步扩展了动态环境的生成范围。

世界模型的应用领域

自动驾驶

学习隐式表示：自动驾驶车辆通过感知数据学习世界模型，早期感知和预测任务由不同模块处理，随着技术发展，多模态大语言模型和端到端自动驾驶技术不断演进，处理方式也发生变化，涉及多种深度学习技术用于感知数据处理和场景理解。

世界模拟器：此前交通场景模拟多在几何空间进行，存在信息损失和效率问题，基于扩散的视频生成模型部分解决了这些问题，可直接生成类似现实的相机感知数据，还有其他形式的感知数据预测方法，如预测 3D 占用网格和雷达点云数据。

机器人

学习隐式表示：传统机器人在结构化环境中执行任务，在陌生环境中面临挑战，因此需学习环境隐式表示，视觉模型和语言模型等技术有助于机器人理解世界和任务意图。

预测环境未来状态：机器人任务具有顺序性和长期性，预测环境变化可提升任务性能，多种方法如 MORL、Trajectron++以及基于视频生成模型的方法被用于预测未来状态。

从模拟到现实世界：深度强化学习在机器人策略学习中有应用，但样本效率低，模拟与现实存在差距。世界模型有助于机器人在现实世界中处理通用任务，如 NeBula、DayDreamer 和 SWIM 等工作展示了其在不同方面的应用和效果。

社会模拟

构建反映现实世界社会的模拟：LLM 的出现为构建更真实的社会模拟系统提供了可能，如 AI Town 等项目，还有许多工作在不同社会场景中进行尝试，如社交网络、游戏、经济系统等领域的模拟。

智能体对社会模拟中外部世界的理解：LLM agent 通过存储交互观察形成对外部世界的理解，包括记忆、信念等，这些认知有助于其在模拟社会场景中做出决策，相关工作有 Agent - Pro、GovSim 和 AgentGroupChat 等。

世界模型面临的挑战与未来方向

物理规则与反事实模拟：世界模型需学习模拟世界的因果关系和物理规则，以解决数据稀缺问题和提高模拟一致性，但当前生成式大模型在这方面存在局限，未来可探索大模型与物理规则模拟器进行集成。

丰富社会维度：模拟人类行为和社会互动对高级世界模型至关重要，当前在设计能模拟真实全面人类行为和社会互动的自主智能体方面存在挑战，同时需要开发可靠的评估方案。

通过具身智能拟合模拟与现实差距：世界模型是发展具身智能的关键步骤，需提高生成式 AI 模型的多模态、多任务和 3D 能力，同时解决模拟与现实的差距问题，可通过收集更精细感官数据和创建自增强循环实现。

模拟效率：确保世界模型的高模拟效率对许多应用重要，当前面临计算成本高和速度慢的问题，未来可探索大小生成模型协同、优化底层硬件和编程平台等方法。

伦理和安全问题：