跳转至

type: entity tags: [llama.cpp, ggml, inference, on-device, open-source, release] related: [[ggml-llamacpp-hf]], [[llamacpp-b8815]], [[llamacpp-b8809]], [[edgeflow-cold-start]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8816 title: "llama.cpp b8816 Release" date: 2026-04-16 reliability: high created: 2026-04-16 updated: 2026-04-16


llama.cpp b8816

ggml 底层图复用机制优化,持续迭代的端侧推理引擎

核心变更

ggml: graph_reused (#21764)

本版本的核心变更是 ggml 计算图的复用机制改进:

  • 图版本化替代复用标志:从简单的 boolean 复用标志改为版本号管理
  • 原子操作递增版本:使用 atomic 操作保证多线程安全
  • 分图编号使用高位:版本号的高位用于 split graph 编号
  • uid 管理优化:将计数器移至 ggml.c,仅在 split_graph 中设置 uid

这一改进优化了计算图的生命周期管理,对端侧推理的内存效率和图调度有正面影响。

平台支持

  • macOS/iOS:arm64、x64、KleidiAI 启用版本、iOS XCFramework
  • Linux:x64/arm64/s390x CPU、Vulkan、ROCm 7.2、OpenVINO 2026.0
  • Windows:x64/arm64 CPU、Vulkan、DirectML

关键洞察

llama.cpp 持续高频迭代(b8815 → b8816 仅数小时),每次微改进都针对实际部署中的痛点。graph_reused 的版本化改造虽然看起来小,但对多模型并行推理和内存受限设备的图调度效率有实际价值。

关联

  • [[ggml-llamacpp-hf]] — llama.cpp 加入 HuggingFace 的战略背景
  • [[llamacpp-b8815]] — 前一版本
  • [[edgeflow-cold-start]] — 冷启动优化,llama.cpp 的快速迭代支持此类上层优化
  • [[kv-cache-quantization-ondevice]] — KV-Cache 量化,依赖 ggml 底层改进