type: concept tags: [NPU, 内存架构, 推理优化, agentic, 硬件协同设计, 异构计算] related: [[edgecim-hardware-codesign]], [[scaling-llm-npu-mobile]], [[topcell-llm-hardware-topology]], [[llm-inference-edge-mobile-npu-gpu]], [[bfp-npu-reliability]], [[strix-npu-reliability]] sources: - url: https://arxiv.org/abs/2604.16007 title: "MemExplorer: Navigating the Heterogeneous Memory Design Space for Agentic Inference NPUs" date: 2026-04-20 reliability: high created: 2026-04-20 updated: 2026-04-20

MemExplorer: 异构 NPU 内存系统自动合成器¶

面向 agentic LLM 推理负载的异构内存架构设计空间探索工具，解决 prefill/decode 不同阶段对内存容量与带宽的差异化需求。

核心问题¶

Agentic LLM 工作负载（如多轮对话、工具调用、Agent 推理链）对 NPU 的内存需求呈现显著的阶段异构性： - Prefill 阶段：计算密集，需要高带宽（HBM 级别）快速处理大批量 token - Decode 阶段：内存带宽受限，逐 token 自回归生成成为瓶颈

当前产业界正从同构加速器走向异构互联系统（如 NVIDIA Vera Rubin 平台），每台设备携带不同内存架构。可用内存技术也从 on-chip SRAM 扩展到 HBM、LPDDR、GDDR、高带宽闪存（HBF），每种技术在容量/带宽/功耗上有不同权衡。

关键挑战：在工作负载特征、NPU 设计维度（如矩阵引擎大小）和内存系统设计三者的交互关系尚缺乏系统性研究的情况下，如何找到最优内存架构？

方法/架构¶

MemExplorer 提供一套统一抽象层，建模不同层级（on-chip/off-chip）的异构内存技术：

内存技术建模：将 SRAM、HBM、LPDDR、GDDR、HBF 等统一为可组合的内存模块，参数化容量/带宽/延迟/功耗
NPU-内存协同探索：自动确定异构内存系统 + NPU 设计选择（矩阵引擎大小、PE 数量等）
Prefill/Decode 均衡优化：在多设备 NPU 系统中，平衡 prefill-only 设备和 decode-only 设备的吞吐与功耗

核心创新在于将传统"先定 NPU 架构再配内存"的流程反转：同时搜索 NPU 微架构和内存子系统的设计空间。

实验结果¶

在 agentic 工作负载下，同等功耗预算： - Prefill-only 场景：MemExplorer 方案比 baseline NPU 能效高 2.3 倍，比 H100 高 3.23 倍 - Decode 场景：同等性能目标下，比 baseline NPU 功耗效率高 1.93 倍，比 H100 高 2.72 倍

这意味着在移动端/边缘端受限的功耗预算下，通过精细的异构内存设计，可以显著提升 agentic 推理的能效比。

关键洞察¶

Agentic 负载改变了内存需求模式：传统 LLM 推理优化关注 decode 带宽，但 agentic 工作负载的 prefill 阶段（处理工具返回结果、上下文拼接）占比显著增加，需要重新平衡内存架构
异构内存是 NPU 的必然方向：单一内存技术无法同时满足高带宽和大容量需求。混合 HBM + LPDDR + on-chip SRAM 的异构方案，通过 MemExplorer 自动搜索，能发现人工设计难以覆盖的最优解
对手机端 AIOS 的启示：手机 NPU（如高通 Hexagon、苹果 Neural Engine）当前使用 LPDDR 共享内存。MemExplorer 的方法论可用于评估未来集成专用 AI 内存（如 on-chip SRAM cache for KV-cache）的收益

为什么重要¶

随着手机端 Agent 场景爆发（多轮工具调用、屏幕理解+操作、实时翻译+对话），NPU 需要处理越来越复杂的 agentic 推理模式。MemExplorer 提供的设计方法论为下一代手机 NPU 的内存架构选择提供了系统化的决策框架——不再是"凭经验选 HBM 还是 LPDDR"，而是基于工作负载自动搜索最优异构方案。

关联¶

[[edgecim-hardware-codesign]] — 同属 NPU 硬件协同设计领域，MemExplorer 专注内存子系统
[[scaling-llm-npu-mobile]] — 探索 NPU 上 LLM 扩展，与内存设计直接相关
[[topcell-llm-hardware-topology]] — 硬件拓扑对 LLM 推理的影响，内存是拓扑的核心维度
[[llm-inference-edge-mobile-npu-gpu]] — 边缘端 LLM 推理综述，内存瓶颈是共同挑战
[[bfp-npu-reliability]] — NPU 可靠性研究，异构内存引入新的可靠性考量
[[strix-npu-reliability]] — Strix NPU 可靠性分析