type: concept tags: [inference, memory, on-device, hardware, HBS, chiplet, NPU, 端侧推理, 内存优化] related: [[edgecim-hardware-codesign]], [[kv-cache-quantization-ondevice]], [[edgeflow-cold-start]], [[llamacpp]], [[gemma4-ondevice]], [[sustainability-ondevice-intelligence]] sources: - url: https://arxiv.org/abs/2604.11128v1 title: "Technology solutions targeting the performance of gen-AI inference in resource constrained platforms" date: 2026-04-13 reliability: high - url: https://arxiv.org/html/2604.11128v1 title: "Full HTML version" date: 2026-04-13 reliability: high created: 2026-04-15 updated: 2026-04-15

端侧 Gen-AI 推理的内存压力与硬件解决方案¶

IMEC 团队用层次化 Roofline 模型评估了两种新兴硬件技术（High Bandwidth Storage 和 SRAM 键合芯粒）对移动设备上 Gen-AI 推理性能的影响，量化了带宽/延迟需求以实现 10 TPS 的交互门槛。

核心问题¶

端侧 LLM 推理面临严峻的内存瓶颈：

模型权重：Llama-7B FP16 需要 ~14GB 内存，超过智能手机标准 DDR 容量
KV Cache：随上下文长度线性增长，多模态输入（图像/视频 token 化）进一步加剧
并发推理：即使低并发度也会增加运行时内存管理复杂度
内存墙：生成阶段 ops/bytes ~ O(1)，数据搬运成为主要瓶颈

现有算法级优化（KV Cache 驱逐、Flash 块访问、稀疏加载）能获得 2-20x 加速，但需要硬件层增强来突破天花板。

方法/架构¶

层次化 Roofline 性能分析框架¶

研究使用经验证的层次化 Roofline 框架，区别于单层内存模型：

内存层次：NPU Scratchpad → L2 → DDR → HBS（新增）

核心机制：将 GEMM/GEMV kernel（注意力计算、MLP 投影等）映射到架构上，通过搜索每个内存层级的最优 tiling 策略计算 kernel 延迟。算术强度（FLOPs/bytes）与硬件拐点比较判定 kernel 是内存受限还是计算受限。

关键公式：

time = max{ total_FLOPs/compute_throughput, data_traffic_volume/memory_throughput }

两种硬件方案¶

方案一：High Bandwidth Storage（HBS）— 面向大模型（13B） - 传统 SSD/Flash 带宽远低于 DDR，HBS 带宽接近 DDR 但容量大几个数量级 - 延迟在微秒级别（vs DDR 的 100ns） - 16 IO/平面，1-4 Gbps/IO 数据率，通过平面和列结构交错实现高吞吐 - 容量足以容纳模型权重、Q/K/V 矩阵和中间激活值

方案二：SRAM 键合芯粒 — 面向小模型（1B） - 混合键合的 SRAM 缓冲芯粒，直接通过定制接口连接逻辑芯粒上的 NPU - 灵感来自近存/内存计算研究 - 关键问题：SRAM 有限容量下存储什么最高效

实验结果/关键数据¶

实验配置¶

模型：LLaVa1.5-13B（单精度，多模态）
计算吞吐：35 TFLOPs（NPU 全部处理单元）
上下文长度：200/200、4096/12288、8192/24576
目标门槛：10 TPS（最低交互性要求）

核心结果表¶

DDR 带宽	HBS 带宽	Q/K/V 存储位置	性能（TPS）	瓶颈位置	加速比
LPDDR6 (173 GB/s)	16-173 GB/s	HBS	~4	HBS	baseline
LPDDR6 (173 GB/s)	16-520 GB/s	HBS	~5.5	DDR	1.4x
3x LPDDR6 (520 GB/s)	16-520 GB/s	HBS	~8.9	HBS	2.2x
3x LPDDR6 (520 GB/s)	16-520 GB/s	Q,K,V在DDR	~12.5	HBS	3.1x

关键发现¶

HBS 延迟的隐藏影响：即使 HBS 带宽略高于 DDR，微秒级延迟仍使其成为性能瓶颈。HBS 带宽需要至少 40% 高于 DDR 带宽才能让瓶颈转移到 DDR。
Q/K/V 缓存策略：将 Q、K、V 矩阵限制在 DDR 中传输（而非经过 HBS）可显著提升注意力执行时间（占总 GEMM 时间的 31-69%），使 10μs 延迟下仍能达到 10 TPS 目标。
上下文长度影响：类似趋势在 8192/24576 长上下文下仍然成立，但绝对 TPS 更低。
小模型的芯粒策略：对于 1B 参数模型，缓存 Q/K/V 的性能收益有限；缓存 MLP 和投影层的权重矩阵才是更高效的芯粒利用方式。

关键洞察¶

从算法到硬件的协同优化逻辑¶

这项研究揭示了端侧推理优化的层次化思路：

算法层（已有）：KV Cache 驱逐、量化、稀疏注意力 → 2-20x
中间件层（已有）：调度优化、异构 SoC 感知批处理 → 1.6-4.8x
硬件层（本文）：HBS + 键合芯粒 → 突破内存墙

三层叠加是端侧部署 7B+ 模型的现实路径。

HBS 的工程可行性¶

HBS 不需要全新的存储技术，而是将现有 Flash SSD 接口从 PCIe Gen5/6（16-32 GB/s）扩展到更高 IO 密度的平面架构。这在制造工艺上比 HBM 更容易实现，因为不需要 3D 堆叠，成本更接近传统 SSD。

大小模型的不同优化方向¶

维度	大模型（13B）	小模型（1B）
主要瓶颈	KV Cache 容量	计算效率
推荐方案	HBS + DDR 分层	SRAM 键合芯粒
关键优化	Q/K/V 放 DDR，权重放 HBS	MLP 权重放芯粒
交互门槛	需要 3x LPDDR6	DDR 单独即可

为什么重要¶

端侧部署的硬件路线图：首次系统量化了端侧 LLM 推理对下一代内存技术的带宽/延迟需求，为芯片设计提供了具体目标（HBS 带宽 > 40% LPDDR6）
多模态推理的内存挑战：LLaVa1.5-13B 的实验表明，多模态输入带来的长上下文使 KV Cache 压力远超纯文本场景，这对 Gemma 4、MiniCPM-V 等端侧多模态模型的部署有直接指导意义
与现有优化的互补性：KV Cache 量化（已有页面）、HBS 硬件增强可以叠加使用，量化减少容量需求，HBS 提供更大容量和带宽
来自 IMEC 的权威性：IMEC 是全球领先的半导体研究机构，其分析具有产业前瞻性

关联¶

[[edgecim-hardware-codesign]] — EdgeCIM 从 CIM 角度解决端侧推理加速，本文从内存层次角度，两者互补
[[kv-cache-quantization-ondevice]] — KV Cache 量化减少容量需求，与 HBS 方案可以叠加
[[edgeflow-cold-start]] — EdgeFlow 解决冷启动延迟，本文解决稳态推理带宽
[[llamacpp]] — llama.cpp 作为实际推理框架，其优化（如 Metal XIELU）可与硬件方案协同
[[gemma4-ondevice]] — Gemma 4 作为端侧多模态模型代表，其部署直接受本文研究结果影响
[[sustainability-ondevice-intelligence]] — 内存优化直接影响端侧推理的能耗，与性能-能耗权衡主题呼应