type: entity tags: [ggml, llama.cpp, huggingface, local-ai, inference, infrastructure] related: [[on-device-inference-memory-pressure]], [[ggml-llamacpp-hf]], [[mnn-350]] sources: - url: https://huggingface.co/blog/ggml-llamacpp-joins-hf title: "GGML and llama.cpp join HuggingFace to ensure long-term progress of Local AI" date: 2026-04 created: 2026-04-14
GGML 与 llama.cpp 加入 HuggingFace¶
概述¶
GGML 和 llama.cpp 正式加入 HuggingFace,以确保本地 AI 推理工具的长期可持续发展。这是开源 AI 基础设施的重要里程碑。
为什么重要¶
llama.cpp 是端侧 LLM 推理的事实标准,支持 GGUF 格式和各种量化方案。加入 HuggingFace 意味着: - 资源保障:获得 HuggingFace 的资金和工程支持 - 生态整合:与 HuggingFace Hub、Transformers 等深度集成 - 长期可持续:解决了开源项目维护者 burnout 的风险
对 [[mobile-aios-overview]] 的影响:llama.cpp 是 [[on-device-inference-memory-pressure]] 的核心技术栈之一,其稳定性直接关系到整个端侧 AI 生态。
版本追踪¶
b8786(2026-04-14)¶
- 修复推理预算采样器性能回归:当未设置 reasoning budget 时,跳过采样器创建,恢复 backend sampling(GPU 直接选择 token),避免每 token 的 CPU logits 传输
- 此前 gemma4、kimi_k2、lfm2 等模型会无条件创建采样器,导致 Vulkan 场景下 ~30% 速度回退
- lazy grammar 场景下保留采样器以维持 thinking-block 语法抑制功能
b8794 (2026-04-14)¶
mtmd: add mtmd_image_tokens_get_decoder_pos() API— 新增多模态 tokenizer 的 decoder position 查询 API,为端侧视觉语言模型集成提供更精确的 token 位置管理- 发布时间:2026-04-14T22:27:09Z
- 本次更新为小幅 API 扩展,无功能性变更
b8796 (2026-04-15)¶
- 变更:移除 ggml-ext.h(
ggml: remove ggml-ext.h #21869) - 性质:代码整理,清理不再使用的头文件
- 平台支持:macOS ARM64(含 KleidiAI)、iOS XCFramework、Linux(CPU/Vulkan/ROCm/OpenVINO)、Windows
b8811 (2026-04-16)¶
- ggml-webgpu: compute pass batching and profiling overhead removal (#21873)
- 更新 register tiling matmul 使用 f32 累积,修复 Chrome/Dawn 兼容性
- 合并 compute pass 批处理(非 profiling 模式下),移除 iOS 节流限制
- iOS 意义:WebGPU 推理在 iOS Safari 上性能显著提升,为浏览器端侧推理开辟新路径
- 发布时间:2026-04-16T15:03:22Z
- 平台支持:macOS ARM64(含 KleidiAI)、iOS XCFramework、Linux(CPU/Vulkan/ROCm/OpenVINO)、Windows
关联¶
- [[gemma-cpp-inference]] — Google 官方的 Gemma 专用 C++ 推理引擎
- [[mnn-350]] — 竞争/互补的推理框架
- [[gemma4-ondevice]] — 可用 llama.cpp 推理的模型
- [[edgeflow-cold-start]] — 推理优化技术
版本历史¶
b8789 (2026-04-14)¶
- 修复 ARM NEON nvfp4 dot product 在 non-dotprod 目标上的问题
- 继续完善 macOS/iOS/Android 多平台预编译包
- 发布地址:https://github.com/ggml-org/llama.cpp/releases/tag/b8789
b8790 (2026-04-14)¶
- 例行 vendor 更新:BoringSSL 升级至 0.20260413.0(安全维护)
- 单次提交,无功能性变更
- 发布地址:https://github.com/ggml-org/llama.cpp/releases/tag/b8790