跳转至

type: entity tags: [inference, llama-cpp, ggml, metal, apple-silicon, release] related: [[ggml-llamacpp-hf]], [[llamacpp-b8809]], [[llamacpp-b8808]], [[llamacpp-b8807]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8815 title: "ggml-org/llama.cpp: b8815" date: 2026-04-16 reliability: high created: 2026-04-16 updated: 2026-04-16


llama.cpp b8815

新增 Metal ROLL 算子实现 + 统一 Apple SDK 支持

更新内容

Metal: 实现 ROLL 算子 (#21946)

  • 在 Metal 后端新增 ROLL 操作的 GPU 实现
  • 对 Apple Silicon 设备的推理性能有直接提升
  • ROLL 操作在张量操作中用于序列位置变换,对注意力机制实现有辅助作用

Unix: 支持统一 Apple SDK

  • 支持 Apple 统一 SDK 架构
  • 简化 macOS/iOS/tvOS 跨平台构建流程
  • 为 [[coremltools-9]] 集成提供更好的 SDK 兼容性

为什么重要

对手机端 AI 生态的意义:

  • Metal 算子库持续完善:ROLL 算子的 Metal 实现意味着更多底层操作可以在 Apple GPU 上执行,减少 CPU-GPU 数据搬运
  • 统一 SDK 降低跨端部署门槛:构建一次,部署到 iPhone/iPad/Mac,简化端侧模型部署流程
  • 与 [[ggml-llamacpp-hf]] 的 HuggingFace 整合形成完整工具链:从模型获取到端侧推理的全链路优化

关联

  • [[ggml-llamacpp-hf]] — GGML 与 llama.cpp 加入 HuggingFace
  • [[llamacpp-b8809]] — 上一版本
  • [[llamacpp-b8808]] — 历史版本
  • [[coremltools-9]] — Apple Core ML 工具链