跳转至

HaM-World: Soft-Hamiltonian World Models with Selective Memory for Planning

论文基本信息

  • 作者: Haoyun Tang, Haodong Cui, Keyao Xu, Kun Wang, Zhandong Mei
  • 机构: 上海交通大学 (Shanghai Jiao Tong University)
  • 发表日期: 2026-05-07
  • 开源代码: https://github.com/HaoyunT/HaM_World

一句话总结

HaM-World 通过将潜状态分解为守恒的哈密顿子空间 (q,p) 和耗散的上下文子空间 c,并使用选择性状态空间记忆 (Mamba) 提供历史条件输入,解决了世界模型在长视野规划和分布外场景中的不稳定问题。

摘要(翻译)

世界模型通过学习的潜动态实现基于模型的规划,但随着规划视野增长或动态分布偏移,想象的 rollout 会变得不稳定。本文认为这种不稳定性源于 planner 面对的潜状态中缺少两种结构:近似马尔可夫完整性的历史条件记忆,以及分离配置、动量和任务语义的几何组织

本文提出 HaM-World (HMW),一种结构化世界模型,将潜状态分解为: - 正则子空间 (q,p):通过能量导出的哈密顿向量场演化,包含可学习的残差/控制动态 - 上下文子空间 c:捕获语义、耗散和非保守因素

同时使用 Mamba 选择性状态空间记忆 作为历史条件输入。在 4 个 DeepMind Control Suite 任务上,HaM-World 达到最高平均 AUC (117.9, +9.5%),将长视野 rollout 误差降低到强基线的 45%,在 {3,5,7} MSE 单元中赢得 11/12 k。在 12 种分布外扰动(动态偏移、动作延迟、观察遮挡)下,HaM-World 在每种条件下均达到最高 return,在 Finger Spin 上平均 OOD return 提升 10.2%,Reacher Easy 上提升 13.6%。

核心贡献

1. 潜状态几何分解

将 planner 可见的潜状态显式分解为: - 正则分量 (q,p):满足哈密顿力学,提供能量守恒和可逆性 - 上下文分量 c:耗散的、语义编码的、非保守力

这种分解使得规划器可以共享同一个潜状态用于动态预测、奖励/价值估计、想象 rollout 和 CEM 动作搜索。

2. 选择性记忆接口

使用 Mamba 选择性状态空间模型 (SSM) 作为历史条件记忆: - 不同于固定窗口记忆或全注意力机制 - 选择性决定保留/遗忘哪些历史信息 - 为 planner 提供近似马尔可夫完备性(减少对完整历史的依赖)

3. 机制诊断

通过诊断验证了设计意图: - 有界无动作哈密顿能量漂移 - 策略 rollout 下结构化能量变化 - 一致性控制诱导能量转移

关键方法细节

Soft-Hamiltonian 动态

(q,p) 子空间通过以下方式演化:

$$\dot{q} = \nabla_p H(q,p), \quad \dot{p} = -\nabla_q H(q,p) + \text{残差动态}$$

其中哈密顿量 H(q,p) 学习能量函数,残差动态捕获非保守力(摩擦、耗散)。

选择性记忆机制

Mamba SSM 作为记忆模块: - 输入:历史观测序列 - 输出:上下文向量 c 的历史条件 - 选择性:输入门控决定历史信息保留程度

统一规划接口

同一潜状态 (q,p,c) 用于: 1. 动态预测(向前 rollout) 2. 奖励/价值估计 3. CEM(交叉熵方法)动作搜索

为什么重要

解决世界模型的核心瓶颈

世界模型的"想象不稳定"问题是基于模型 RL 的主要障碍: - 误差随 rollout 步数累积 - 分布外状态导致荒唐的预测

HaM-World 通过几何结构(能量守恒提供内在稳定性)和选择性记忆(防止历史污染)双管齐下解决。

对 Agent Memory 的启示

本文展示了任务相关记忆的选择性对长视野规划至关重要: - 不是所有历史都同等重要 - 记忆应该支持可逆的、守恒的动态建模 - Mamba SSM 的选择性机制可作为记忆压缩的参考

与移动端/端侧的相关性

高计算效率

  • Mamba SSM 计算效率高于全注意力
  • 单个潜状态服务多个规划任务,减少冗余计算
  • 适合边缘设备上的实时规划

资源受限场景

能量守恒的动态提供内在稳定性,减少了对精确模型的需求——这对边缘部署有利。

未来端侧应用

结合选择性记忆的世界模型可应用于: - 机器人实时控制(需要低延迟长视野规划) - 自动驾驶的认知预测 - AR/VR 环境建模

实验结果

DeepMind Control Suite

任务 HaM-World AUC 基线最优 AUC 提升
平均 117.9 107.5 +9.5%
Long-horizon rollout error 45% of baseline - -

分布外鲁棒性(12 种扰动)

  • 动态偏移、动作延迟、观察遮挡
  • 所有条件下达到最高 return
  • Finger Spin OOD return +10.2%
  • Reacher Easy OOD return +13.6%

参考文献

  • 论文主页: https://arxiv.org/abs/2605.05951
  • 开源代码: https://github.com/HaoyunT/HaM_World
  • Authors: Haoyun Tang, Haodong Cui, Keyao Xu, Kun Wang, Zhandong Mei (Shanghai Jiao Tong University)