type: entity tags: [llama.cpp, ggml, inference, on-device, open-source, release] related: [[ggml-llamacpp-hf]], [[llamacpp-b8815]], [[llamacpp-b8809]], [[edgeflow-cold-start]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8816 title: "llama.cpp b8816 Release" date: 2026-04-16 reliability: high created: 2026-04-16 updated: 2026-04-16

llama.cpp b8816¶

ggml 底层图复用机制优化，持续迭代的端侧推理引擎

核心变更¶

ggml: graph_reused (#21764)¶

本版本的核心变更是 ggml 计算图的复用机制改进：

图版本化替代复用标志：从简单的 boolean 复用标志改为版本号管理
原子操作递增版本：使用 atomic 操作保证多线程安全
分图编号使用高位：版本号的高位用于 split graph 编号
uid 管理优化：将计数器移至 ggml.c，仅在 split_graph 中设置 uid

这一改进优化了计算图的生命周期管理，对端侧推理的内存效率和图调度有正面影响。

平台支持¶

macOS/iOS：arm64、x64、KleidiAI 启用版本、iOS XCFramework
Linux：x64/arm64/s390x CPU、Vulkan、ROCm 7.2、OpenVINO 2026.0
Windows：x64/arm64 CPU、Vulkan、DirectML

关键洞察¶

llama.cpp 持续高频迭代（b8815 → b8816 仅数小时），每次微改进都针对实际部署中的痛点。graph_reused 的版本化改造虽然看起来小，但对多模型并行推理和内存受限设备的图调度效率有实际价值。

关联¶

[[ggml-llamacpp-hf]] — llama.cpp 加入 HuggingFace 的战略背景
[[llamacpp-b8815]] — 前一版本
[[edgeflow-cold-start]] — 冷启动优化，llama.cpp 的快速迭代支持此类上层优化
[[kv-cache-quantization-ondevice]] — KV-Cache 量化，依赖 ggml 底层改进