type: entity tags: [llama.cpp, inference, ggml, open-source, cross-platform, android] related: [[ggml-llamacpp-hf]], [[mnn-350]], [[minicpm-242]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8849 title: "llama.cpp b8849 Release" date: 2026-04-19 reliability: high created: 2026-04-19 updated: 2026-04-19

llama.cpp b8849¶

GGML 推理引擎最新版本，支持 Android、iOS、macOS、Linux、Windows 多平台。小版本更新，改进 tool call 解析。

版本信息¶

发布日期：2026-04-19
构建号：b8849
仓库：ggml-org/llama.cpp

本次更新¶

common/autoparser: allow space after tool call (#22073)

这是一个小幅改进版本，主要修复了 tool call 解析中空格处理的问题。在 Agent 系统中，LLM 输出的 tool call 格式可能存在尾随空格，此修复提升了工具调用的鲁棒性。

多平台支持¶

llama.cpp 持续为端侧推理提供最广泛的平台覆盖：

平台	架构	备注
macOS	arm64, x64	Apple Silicon + Intel
iOS	XCFramework	移动端完整支持
Android	arm64	手机端推理核心
Linux	x64, arm64, s390x	服务器/边缘
Windows	x64, arm64	CUDA 12/13, Vulkan, SYCL
openEuler	x86	310p, 910b ACL Graph

硬件加速选项¶

CUDA: 12.4, 13.1
Vulkan: 跨平台 GPU 推理
ROCm 7.2: AMD GPU
OpenVINO: Intel 推理优化
KleidiAI: macOS ARM 优化
SYCL: Intel oneAPI
HIP: AMD Radeon

对手机端 AI 的意义¶

Android arm64 构建：直接可用于 Android 端侧 LLM 部署
iOS XCFramework：Swift/SwiftUI 项目可直接集成
Tool Call 改进：Agent 系统中工具调用的可靠性提升，对端侧 Agent 至关重要
KleidiAI 支持：Apple Silicon 上的推理加速，对 macOS/iOS 端侧部署有直接影响

关联¶

[[ggml-llamacpp-hf]] — llama.cpp 的完整介绍和使用指南
[[mnn-350]] — 阿里 MNN，另一个端侧推理引擎
[[minicpm-242]] — MiniCPM 模型可使用 llama.cpp 推理
[[on-device-inference-memory-pressure]] — 端侧推理的内存压力管理
[[edgeflow-cold-start]] — 端侧推理引擎的冷启动优化