type: concept tags: [NPU, 内存架构, 推理优化, agentic, 硬件协同设计, 异构计算] related: [[edgecim-hardware-codesign]], [[scaling-llm-npu-mobile]], [[topcell-llm-hardware-topology]], [[llm-inference-edge-mobile-npu-gpu]], [[bfp-npu-reliability]], [[strix-npu-reliability]] sources: - url: https://arxiv.org/abs/2604.16007 title: "MemExplorer: Navigating the Heterogeneous Memory Design Space for Agentic Inference NPUs" date: 2026-04-20 reliability: high created: 2026-04-20 updated: 2026-04-20
MemExplorer: 异构 NPU 内存系统自动合成器¶
面向 agentic LLM 推理负载的异构内存架构设计空间探索工具,解决 prefill/decode 不同阶段对内存容量与带宽的差异化需求。
核心问题¶
Agentic LLM 工作负载(如多轮对话、工具调用、Agent 推理链)对 NPU 的内存需求呈现显著的阶段异构性: - Prefill 阶段:计算密集,需要高带宽(HBM 级别)快速处理大批量 token - Decode 阶段:内存带宽受限,逐 token 自回归生成成为瓶颈
当前产业界正从同构加速器走向异构互联系统(如 NVIDIA Vera Rubin 平台),每台设备携带不同内存架构。可用内存技术也从 on-chip SRAM 扩展到 HBM、LPDDR、GDDR、高带宽闪存(HBF),每种技术在容量/带宽/功耗上有不同权衡。
关键挑战:在工作负载特征、NPU 设计维度(如矩阵引擎大小)和内存系统设计三者的交互关系尚缺乏系统性研究的情况下,如何找到最优内存架构?
方法/架构¶
MemExplorer 提供一套统一抽象层,建模不同层级(on-chip/off-chip)的异构内存技术:
- 内存技术建模:将 SRAM、HBM、LPDDR、GDDR、HBF 等统一为可组合的内存模块,参数化容量/带宽/延迟/功耗
- NPU-内存协同探索:自动确定异构内存系统 + NPU 设计选择(矩阵引擎大小、PE 数量等)
- Prefill/Decode 均衡优化:在多设备 NPU 系统中,平衡 prefill-only 设备和 decode-only 设备的吞吐与功耗
核心创新在于将传统"先定 NPU 架构再配内存"的流程反转:同时搜索 NPU 微架构和内存子系统的设计空间。
实验结果¶
在 agentic 工作负载下,同等功耗预算: - Prefill-only 场景:MemExplorer 方案比 baseline NPU 能效高 2.3 倍,比 H100 高 3.23 倍 - Decode 场景:同等性能目标下,比 baseline NPU 功耗效率高 1.93 倍,比 H100 高 2.72 倍
这意味着在移动端/边缘端受限的功耗预算下,通过精细的异构内存设计,可以显著提升 agentic 推理的能效比。
关键洞察¶
- Agentic 负载改变了内存需求模式:传统 LLM 推理优化关注 decode 带宽,但 agentic 工作负载的 prefill 阶段(处理工具返回结果、上下文拼接)占比显著增加,需要重新平衡内存架构
- 异构内存是 NPU 的必然方向:单一内存技术无法同时满足高带宽和大容量需求。混合 HBM + LPDDR + on-chip SRAM 的异构方案,通过 MemExplorer 自动搜索,能发现人工设计难以覆盖的最优解
- 对手机端 AIOS 的启示:手机 NPU(如高通 Hexagon、苹果 Neural Engine)当前使用 LPDDR 共享内存。MemExplorer 的方法论可用于评估未来集成专用 AI 内存(如 on-chip SRAM cache for KV-cache)的收益
为什么重要¶
随着手机端 Agent 场景爆发(多轮工具调用、屏幕理解+操作、实时翻译+对话),NPU 需要处理越来越复杂的 agentic 推理模式。MemExplorer 提供的设计方法论为下一代手机 NPU 的内存架构选择提供了系统化的决策框架——不再是"凭经验选 HBM 还是 LPDDR",而是基于工作负载自动搜索最优异构方案。
关联¶
- [[edgecim-hardware-codesign]] — 同属 NPU 硬件协同设计领域,MemExplorer 专注内存子系统
- [[scaling-llm-npu-mobile]] — 探索 NPU 上 LLM 扩展,与内存设计直接相关
- [[topcell-llm-hardware-topology]] — 硬件拓扑对 LLM 推理的影响,内存是拓扑的核心维度
- [[llm-inference-edge-mobile-npu-gpu]] — 边缘端 LLM 推理综述,内存瓶颈是共同挑战
- [[bfp-npu-reliability]] — NPU 可靠性研究,异构内存引入新的可靠性考量
- [[strix-npu-reliability]] — Strix NPU 可靠性分析