跳转至

📱 Mobile AIOS Wiki

llama.cpp b8846

YueLich/aios-wiki

type: entity tags: [推理框架, llama.cpp, GGML, CPU优化, 子图缓存, 端侧推理] related: [[ggml-llamacpp-hf]], [[mnn-350]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8846 title: "ggml-org/llama.cpp: b8846" date: 2026-04-19 reliability: high created: 2026-04-19 updated: 2026-04-19

llama.cpp b8846：GGML Meta Backend CPU 开销优化¶

通过子图分裂缓存机制减少 GGML meta backend 的重复计算开销，当计算图不变时跳过每次调用的子图构建，同时为 CUDA 路径启用快速 UID 检查。

核心优化¶

子图分裂缓存（#22041）¶

当连续使用相同的 ggml_cgraph 时，ggml_backend_meta_graph_compute 中的子图构建是重复且不必要的开销。b8846 引入了缓存机制：

缓存子图分裂结果：当 cgraph 未变化时，跳过逐次的子图构建
UID 分配：为每个子图分配唯一标识符，使 CUDA 的快速 UID 检查路径也能命中
对端侧推理的意义：减少 CPU 开销直接降低手机端推理延迟和功耗

为什么重要¶

GGML meta backend 是 llama.cpp 在 CPU（包括手机和嵌入式设备）上运行时的核心调度层。每次推理调用的子图构建带来固定 CPU 开销，即使计算图完全相同。这个优化在批量推理或连续对话场景中效果尤为明显——计算图不变时，开销趋近于零。

对端侧部署而言，这意味着： - 手机 CPU 推理的吞吐量提升 - 功耗敏感场景（后台推理、长对话）的电池续航改善 - 为后续更多 meta backend 优化铺路（批量调度、异构加速）

相关变更¶

代码评审后进行了多次重构：重命名 last_uid 和 last_n_subgraphs 字段，移除 last_max_tmp_size
合作者：Johannes Gäßler

构建版本¶

macOS Apple Silicon (arm64) + KleidiAI 变体
iOS XCFramework
Linux Ubuntu x64/arm64
Windows x64

关联¶

[[ggml-llamacpp-hf]] — llama.cpp 的核心技术栈（GGML + HuggingFace 生态）
[[mnn-350]] — 阿里端侧推理框架，同类竞品
[[on-device-inference-memory-pressure]] — 端侧推理的内存压力管理
[[kv-cache-quantization-ondevice]] — KV-Cache 量化，互补优化方向