跳转至

type: entity tags: [推理框架, inference, opencl, adreno, qualcomm, gpu, llama-cpp] related: [[ggml-llamacpp-hf]], [[mnn-350]], [[coremltools-9]], [[edgeflow-cold-start]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8827 title: "ggml-org/llama.cpp: b8827" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17


llama.cpp b8827

OpenCL 后端重构 Adreno GPU 的 q8_0 量化矩阵运算调度,改善 Qualcomm 设备上的推理性能。

核心更新

本次发布的亮点是 PR #21938:OpenCL q8_0 set_tensor 和 mul_mat 主机端调度重构,专门针对 Adreno GPU(Qualcomm Snapdragon 系列)。

技术细节

  • q8_0 GEMM/GEMV Adreno 调度重构:重新设计了 q8_0 量化格式在 Adreno GPU 上的矩阵乘法(GEMM)和矩阵向量乘法(GEMV)的主机端分发逻辑
  • set_tensor 优化:改进了张量数据在 GPU 内存中的布局和传输方式
  • 代码质量:修复空白符问题,提升代码一致性

平台支持

b8827 继续提供全面的跨平台二进制分发:

平台 变体
macOS arm64, arm64 KleidiAI, x64
iOS XCFramework
Linux x64/arm64/s390x CPU, Vulkan x64/arm64, ROCm 7.2, OpenVINO
Windows x64/arm64 CPU, CUDA 12

为什么重要

对手机端 AIOS 生态而言:

  • Qualcomm Adreno 是 Android 主流 GPU:几乎所有 Snapdragon 芯片都使用 Adreno GPU,此次重构直接影响数十亿 Android 设备的端侧推理性能
  • q8_0 是移动端常用量化格式:相比 FP16 减半内存占用,同时保持较高精度,是端侧 LLM 推理的主力格式
  • OpenCL 是跨厂商 GPU 标准:不依赖 Vulkan 或 CUDA,可在 Qualcomm/Mali/PowerVR 等多种移动 GPU 上运行
  • 从 b8783 到 b8827 持续迭代:44 个版本的快速迭代说明 llama.cpp 团队对移动端 GPU 支持的持续投入

关联

  • [[ggml-llamacpp-hf]] — llama.cpp 母项目概述,本次更新是其 OpenCL 移动端能力的延续
  • [[mnn-350]] — MNN 同样提供 Adreno GPU 支持,两者在移动端推理领域形成互补
  • [[coremltools-9]] — Apple 端侧推理工具链,与 llama.cpp 的 iOS XCFramework 分发形成对比
  • [[edgeflow-cold-start]] — 优化后的 OpenCL 后端可减少冷启动时的 GPU 初始化延迟