I3DM: Implicit 3D-aware Memory Retrieval and Injection for Consistent Video Scene Generation

论文信息¶

arXiv: 2603.23413
发表日期: 2026-03-24
作者: Jia Li, Han Yan, Yihang Chen, Siqi Li, Xibin Song, Yifu Wang, Jianfei Cai, Tien-Tsin Wong, Pan Ji
方向: 3D 感知记忆（视频生成中的隐式 3D 记忆检索）

摘要¶

背景：视频生成已取得显著进展，但重返先前探索区域时维持长期场景一致性仍具挑战。现有方案依赖显式 3D 几何构建（存在误差积累和尺度模糊问题）或朴素的 FoV 检索（复杂遮挡下失效）。

方法：I3DM 提出隐式 3D 感知记忆机制，无需显式 3D 重建即可实现一致的视频场景生成。核心是 3D 感知记忆检索策略——利用预训练前馈新视角合成（FF-NVS）模型的中间特征评分视角相关性，在高度遮挡场景下实现鲁棒检索。进一步引入 3D 对齐记忆注入模块，将历史内容隐式变形到目标视角，并自适应地基于可靠变形区域调节生成。

实验结果：在重返一致性、生成保真度和相机控制精度上均超越 SOTA 方法。

核心贡献¶

隐式 3D 感知记忆：绕过显式 3D 重建实现场景一致性，规避误差积累问题
FF-NVS 特征检索：利用预训练新视角合成模型的中间特征评分，避免传统 FoV 检索的遮挡失败问题
3D 对齐记忆注入：将历史帧变形到当前视角，自适应条件生成
端到端视频生成：从记忆检索到注入的完整 pipeline

为什么重要¶

场景一致性是视频生成的长期难题：

Agent 视觉记忆：具身 Agent 视觉记忆需要在重返位置时保持一致性
3D 先验利用：利用预训练 3D 先验而非显式重建，更鲁棒
遮挡处理：这是 3D 记忆系统最难处理的情况，I3DM 通过 FF-NVS 中间特征解决了这一问题

与端侧/移动端的相关性¶

对端侧具身 Agent 有参考价值：

视觉记忆压缩：3D 隐式表示比存储多视角图像更高效，适合移动端存储限制
边缘视频生成：记忆检索+变形生成可在边缘设备上实现，无需云端处理
AR 场景一致性：AR 设备重返位置时需要一致的虚拟物体叠加

参考文献¶

arXiv: 2603.23413 | https://arxiv.org/abs/2603.23413