HaM-World: Soft-Hamiltonian World Models with Selective Memory for Planning

论文基本信息¶

作者: Haoyun Tang, Haodong Cui, Keyao Xu, Kun Wang, Zhandong Mei
机构: 上海交通大学 (Shanghai Jiao Tong University)
发表日期: 2026-05-07
开源代码: https://github.com/HaoyunT/HaM_World

一句话总结¶

HaM-World 通过将潜状态分解为守恒的哈密顿子空间 (q,p) 和耗散的上下文子空间 c，并使用选择性状态空间记忆 (Mamba) 提供历史条件输入，解决了世界模型在长视野规划和分布外场景中的不稳定问题。

摘要（翻译）¶

世界模型通过学习的潜动态实现基于模型的规划，但随着规划视野增长或动态分布偏移，想象的 rollout 会变得不稳定。本文认为这种不稳定性源于 planner 面对的潜状态中缺少两种结构：近似马尔可夫完整性的历史条件记忆，以及分离配置、动量和任务语义的几何组织。

本文提出 HaM-World (HMW)，一种结构化世界模型，将潜状态分解为： - 正则子空间 (q,p)：通过能量导出的哈密顿向量场演化，包含可学习的残差/控制动态 - 上下文子空间 c：捕获语义、耗散和非保守因素

同时使用 Mamba 选择性状态空间记忆 作为历史条件输入。在 4 个 DeepMind Control Suite 任务上，HaM-World 达到最高平均 AUC (117.9, +9.5%)，将长视野 rollout 误差降低到强基线的 45%，在 {3,5,7} MSE 单元中赢得 11/12 k。在 12 种分布外扰动（动态偏移、动作延迟、观察遮挡）下，HaM-World 在每种条件下均达到最高 return，在 Finger Spin 上平均 OOD return 提升 10.2%，Reacher Easy 上提升 13.6%。

核心贡献¶

1. 潜状态几何分解¶

将 planner 可见的潜状态显式分解为： - 正则分量 (q,p)：满足哈密顿力学，提供能量守恒和可逆性 - 上下文分量 c：耗散的、语义编码的、非保守力

这种分解使得规划器可以共享同一个潜状态用于动态预测、奖励/价值估计、想象 rollout 和 CEM 动作搜索。

2. 选择性记忆接口¶

使用 Mamba 选择性状态空间模型 (SSM) 作为历史条件记忆： - 不同于固定窗口记忆或全注意力机制 - 选择性决定保留/遗忘哪些历史信息 - 为 planner 提供近似马尔可夫完备性（减少对完整历史的依赖）

3. 机制诊断¶

通过诊断验证了设计意图： - 有界无动作哈密顿能量漂移 - 策略 rollout 下结构化能量变化 - 一致性控制诱导能量转移

关键方法细节¶

Soft-Hamiltonian 动态¶

(q,p) 子空间通过以下方式演化：

$$\dot{q} = \nabla_p H(q,p), \quad \dot{p} = -\nabla_q H(q,p) + \text{残差动态}$$

其中哈密顿量 H(q,p) 学习能量函数，残差动态捕获非保守力（摩擦、耗散）。

选择性记忆机制¶

Mamba SSM 作为记忆模块： - 输入：历史观测序列 - 输出：上下文向量 c 的历史条件 - 选择性：输入门控决定历史信息保留程度

统一规划接口¶

同一潜状态 (q,p,c) 用于： 1. 动态预测（向前 rollout） 2. 奖励/价值估计 3. CEM（交叉熵方法）动作搜索

为什么重要¶

解决世界模型的核心瓶颈¶

世界模型的"想象不稳定"问题是基于模型 RL 的主要障碍： - 误差随 rollout 步数累积 - 分布外状态导致荒唐的预测

HaM-World 通过几何结构（能量守恒提供内在稳定性）和选择性记忆（防止历史污染）双管齐下解决。

对 Agent Memory 的启示¶

本文展示了任务相关记忆的选择性对长视野规划至关重要： - 不是所有历史都同等重要 - 记忆应该支持可逆的、守恒的动态建模 - Mamba SSM 的选择性机制可作为记忆压缩的参考

与移动端/端侧的相关性¶

高计算效率¶

Mamba SSM 计算效率高于全注意力
单个潜状态服务多个规划任务，减少冗余计算
适合边缘设备上的实时规划

资源受限场景¶

能量守恒的动态提供内在稳定性，减少了对精确模型的需求——这对边缘部署有利。

未来端侧应用¶

结合选择性记忆的世界模型可应用于： - 机器人实时控制（需要低延迟长视野规划） - 自动驾驶的认知预测 - AR/VR 环境建模

实验结果¶

DeepMind Control Suite¶

任务	HaM-World AUC	基线最优 AUC	提升
平均	117.9	107.5	+9.5%
Long-horizon rollout error	45% of baseline	-	-

分布外鲁棒性（12 种扰动）¶

动态偏移、动作延迟、观察遮挡
在所有条件下达到最高 return
Finger Spin OOD return +10.2%
Reacher Easy OOD return +13.6%

参考文献¶

论文主页: https://arxiv.org/abs/2605.05951
开源代码: https://github.com/HaoyunT/HaM_World
Authors: Haoyun Tang, Haodong Cui, Keyao Xu, Kun Wang, Zhandong Mei (Shanghai Jiao Tong University)