type: entity tags: [推理框架, inference, opencl, adreno, qualcomm, gpu, llama-cpp] related: [[ggml-llamacpp-hf]], [[mnn-350]], [[coremltools-9]], [[edgeflow-cold-start]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8827 title: "ggml-org/llama.cpp: b8827" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17
llama.cpp b8827¶
OpenCL 后端重构 Adreno GPU 的 q8_0 量化矩阵运算调度,改善 Qualcomm 设备上的推理性能。
核心更新¶
本次发布的亮点是 PR #21938:OpenCL q8_0 set_tensor 和 mul_mat 主机端调度重构,专门针对 Adreno GPU(Qualcomm Snapdragon 系列)。
技术细节¶
- q8_0 GEMM/GEMV Adreno 调度重构:重新设计了 q8_0 量化格式在 Adreno GPU 上的矩阵乘法(GEMM)和矩阵向量乘法(GEMV)的主机端分发逻辑
- set_tensor 优化:改进了张量数据在 GPU 内存中的布局和传输方式
- 代码质量:修复空白符问题,提升代码一致性
平台支持¶
b8827 继续提供全面的跨平台二进制分发:
| 平台 | 变体 |
|---|---|
| macOS | arm64, arm64 KleidiAI, x64 |
| iOS | XCFramework |
| Linux | x64/arm64/s390x CPU, Vulkan x64/arm64, ROCm 7.2, OpenVINO |
| Windows | x64/arm64 CPU, CUDA 12 |
为什么重要¶
对手机端 AIOS 生态而言:
- Qualcomm Adreno 是 Android 主流 GPU:几乎所有 Snapdragon 芯片都使用 Adreno GPU,此次重构直接影响数十亿 Android 设备的端侧推理性能
- q8_0 是移动端常用量化格式:相比 FP16 减半内存占用,同时保持较高精度,是端侧 LLM 推理的主力格式
- OpenCL 是跨厂商 GPU 标准:不依赖 Vulkan 或 CUDA,可在 Qualcomm/Mali/PowerVR 等多种移动 GPU 上运行
- 从 b8783 到 b8827 持续迭代:44 个版本的快速迭代说明 llama.cpp 团队对移动端 GPU 支持的持续投入
关联¶
- [[ggml-llamacpp-hf]] — llama.cpp 母项目概述,本次更新是其 OpenCL 移动端能力的延续
- [[mnn-350]] — MNN 同样提供 Adreno GPU 支持,两者在移动端推理领域形成互补
- [[coremltools-9]] — Apple 端侧推理工具链,与 llama.cpp 的 iOS XCFramework 分发形成对比
- [[edgeflow-cold-start]] — 优化后的 OpenCL 后端可减少冷启动时的 GPU 初始化延迟