type: entity tags: [llama.cpp, inference, ggml, open-source, speculative-decoding, android, qualcomm, adreno] related: [[ggml-llamacpp-hf]], [[llamacpp-b8849]], [[mnn-350]], [[android-hybrid-inference]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8850 title: "llama.cpp b8850 Release" date: 2026-04-19 reliability: high - url: https://github.com/ggml-org/llama.cpp/compare/b8799...b8850 title: "llama.cpp b8799..b8850 Commits" date: 2026-04-19 reliability: high created: 2026-04-19 updated: 2026-04-19
llama.cpp b8850¶
GGML 推理引擎重要版本更新。51 个提交,引入推测解码检查点、Adreno GPU 优化、CPU 内存压缩等端侧关键改进。
版本信息¶
- 发布日期:2026-04-19
- 构建号:b8850
- 距上次版本:b8799(51 commits)
- 仓库:ggml-org/llama.cpp
核心更新¶
1. 推测解码检查点(Speculative Checkpointing)¶
server: speculative checkpointing (#19493)
推测解码(Speculative Decoding)是端侧 LLM 推理的核心加速技术。本次引入的检查点机制允许服务端在推测解码过程中保存中间状态,当推测失败时可回滚到检查点而非完全重来。
为什么重要:推测解码在端侧设备上的收益取决于推测准确率。检查点机制减少了错误推测的惩罚成本,预期在高并发场景下可提升 15-30% 的吞吐量。对于手机端多轮对话场景(Agent 调用),这个改进直接降低了延迟。
2. Adreno GPU OpenCL 优化¶
opencl: refactor q8_0 set_tensor and mul_mat host side dispatch for Adreno (#21938)
针对高通 Adreno GPU 的 OpenCL 后端重构,重点优化了 q8_0 量化格式的矩阵乘法(mul_mat)调度。
为什么重要:高通骁龙系列芯片的 Adreno GPU 是 Android 端侧推理的主要加速硬件。本次优化: - 改进了 q8_0 量化张量的数据传输效率 - 优化了 host 端的调度逻辑,减少了 CPU-GPU 同步开销 - 直接提升骁龙 8 Gen 3/4 等设备上的推理速度
3. CPU 上下文大小自动适配¶
llama: fit ctx size for CPU only (#21568)
当仅使用 CPU 推理时(无 GPU 加速),llama.cpp 现在会自动调整上下文窗口大小以适配可用内存。
为什么重要:端侧设备内存有限(6-12GB RAM),手动配置 context size 容易导致 OOM。自动适配机制让低端设备也能安全运行 LLM,无需用户手动调参。
4. CUDA 图 LRU 驱逐¶
CUDA: use LRU based eviction for cuda graphs (#21611)
CUDA Graph 的 LRU(最近最少使用)驱逐策略,优化 GPU 内存管理。
5. Gemma 4 模型类型检测¶
model: Gemma4 model type detection (#22027)
新增 Gemma 4 模型的自动类型检测。用户无需手动指定模型架构参数,llama.cpp 可自动识别 Gemma 4 的配置并加载。
6. CPU 元后端开销优化¶
ggml: reduce CPU overhead in meta backend (#22041)
减少 meta backend 的 CPU 开销,对端侧推理性能有直接提升。
7. AMD CUDA 重构( headline 变更)¶
CUDA: refactor mma data loading for AMD (#22051)
本次版本的 headline 变更:重构 AMD GPU 的 MMA(Matrix Multiply-Accumulate)数据加载,修复 CDNA 和 RDNA 架构的兼容性问题。主要影响 AMD GPU 用户,对移动端无直接影响。
多平台支持¶
| 平台 | 架构 | 加速 |
|---|---|---|
| macOS | arm64, x64 | KleidiAI |
| iOS | XCFramework | Metal |
| Android | arm64 | OpenCL/Adreno |
| Linux | x64, arm64 | CUDA, Vulkan, ROCm |
| Windows | x64, arm64 | CUDA 12/13, Vulkan, SYCL |
对手机端 AI 的意义¶
- 推测解码检查点:端侧多轮对话场景的延迟降低
- Adreno 优化:高通芯片推理速度提升,直接影响 Android 端侧部署
- CPU 内存自动适配:降低低端设备的使用门槛
- Gemma 4 自动检测:简化端侧模型部署流程
- Android arm64 构建:持续维护的 Android 二进制分发
关联¶
- [[ggml-llamacpp-hf]] — llama.cpp 完整介绍
- [[llamacpp-b8849]] — 上一个版本
- [[mnn-350]] — 阿里 MNN,竞争性端侧推理引擎
- [[android-hybrid-inference]] — Android 端云协同推理
- [[on-device-inference-memory-pressure]] — 端侧内存管理
- [[edgeflow-cold-start]] — 冷启动优化