跳转至

llama.cpp b8791

llama.cpp 在 2026-04-14 发布 b8791 版本,距离上次 b8786 有 5 个 commit。

本次更新要点

Metal: XIELU 一元运算符

  • 在 Metal 后端新增 XIELU (eXponential Identity Linear Unit) 激活函数
  • XIELU 是一种新型激活函数,结合了指数特性和线性特性,在某些场景下比 SiLU/Swish 表现更好
  • 这意味着 iOS/macOS 端侧推理 可以使用更高效的激活函数,减少内存和计算开销
  • 与 [[coremltools-9]] 的 CoreML 转换路径互补 — llama.cpp 走的是直接 Metal kernel 路线

ARM NEON nvfp4 点积修复

  • 修复了 ARM NEON 后端在 non-dotprod 目标上的 nvfp4 (NVIDIA FP4) 点积计算
  • 对 Qualcomm Snapdragon 和 MediaTek 等无 dotprod 指令集的 ARM SoC 至关重要
  • 确保低精度推理在更多移动芯片上正确运行

其他

  • WebGPU 矩阵乘法改用 f32 累加(精度提升)
  • BoringSSL 更新到 0.20260413.0
  • Windows MSVC CMake 警告修复

为什么重要

XIELU on Metal 是端侧 LLM 推理优化的又一突破。传统的激活函数(ReLU, GELU, SiLU)在 Metal shader 中已有优化实现,XIELU 作为更新的激活函数被纳入 Metal kernel 后,使用 XIELU 架构的模型在 iPhone/Mac 上的推理效率将显著提升。结合 nvfp4 的 ARM 修复,llama.cpp 在移动芯片上的低精度推理能力持续增强。

相关

  • [[llamacpp-b8791]] — 上一个版本,含更多架构更新
  • [[mnn-350]] — 阿里端侧推理引擎,竞争方案
  • [[coremltools-9]] — Apple 官方模型转换工具链