type: entity tags: [推理框架, 移动推理, 端侧AI, 混合云, YC] related: [[ggml-llamacpp-hf]], [[mnn-350]], [[coremltools-9]], [[minicpm-242]] sources: - url: https://github.com/cactus-compute/cactus title: "Cactus Compute GitHub" date: 2026-04-20 reliability: high - url: https://cactuscompute.com title: "Cactus Compute Official Website" date: 2026-04-20 reliability: high created: 2026-04-20 updated: 2026-04-20

Cactus — 移动端 AI 推理引擎¶

由 Y Combinator W25 孵化的 Cactus Compute 推出的端侧 AI 推理引擎，专注智能手机、笔记本和边缘设备，主打超低延迟与自动云端降级。

核心问题¶

端侧 AI 推理面临三大挑战： 1. 延迟瓶颈：云端推理延迟 >1s，用户体验差 2. 隐私顾虑：数据上传至云服务存在泄露风险 3. 成本压力：大规模调用 API 费用高昂

架构设计¶

Cactus 采用三层架构：

层	功能	特点
Cactus Engine	上层 API	OpenAI 兼容接口，支持 Chat/Vision/STT/RAG/Tool Call
Cactus Graph	计算图	零拷贝计算图，类 PyTorch for mobile，支持自定义模型
Cactus Kernels	底层算子	ARM SIMD 优化内核，支持 Apple/Snapdragon/Exynos 等

关键技术特性¶

ARM CPU 最快推理：自研 SIMD 内核，针对各大 ARM 平台优化
10x 更低 RAM：零拷贝内存映射，大幅减少内存占用
多模态统一 SDK：语音（STT）、视觉（Vision）、语言模型共用一套 API
自动云端降级：当端侧模型能力不足时，自动路由至云端模型
NPU 加速预填充：利用硬件 NPU 加速 prefill 阶段
KV Cache 量化：chunked prefill + KV cache 量化减少内存压力

性能数据¶

来自 HN 社区实测（Pixel 9 Pro，Qwen2.5 1.5B Q6_K）： - Token 生成速率：277 tok（总输出） - TTFT（首 Token 时间）：1609ms - 生成速度：9 tok/sec - RAM 使用：~246 MB（报告）

Cactus 引擎报告参数： - prefill_tps: 1621.89 tok/s - decode_tps: 168.42 tok/s - ram_usage_mb: 245.67

HN 社区反应¶

123 points，属于高质量 YC Launch HN 帖
用户反馈：已使用数月，"Makes it really easy to plug and play different models on my phone"
关注点：App 打包体积、商业模式

为什么重要¶

Cactus 的定位值得关注： 1. YC S25 背书：YC 选择在手机端 AI 领域投资，印证该赛道成熟度 2. 混合云降级是端侧 AI 落地的关键能力——模型太小就自动切云端，无需开发者手动处理 3. OpenAI 兼容 API降低迁移成本，开发者可零改动切换端侧/云端 4. 多模态统一：语音+视觉+语言一个 SDK，减少集成复杂度

对手机端 AI 生态：与 [[ggml-llamacpp-hf]]（通用端侧推理）和 [[mnn-350]]（阿里系端侧框架）形成竞争格局。Cactus 的差异化在于「移动端优先」设计和自动云降级。

关联¶

[[ggml-llamacpp-hf]] — 通用端侧推理引擎，Cactus 的主要竞品
[[mnn-350]] — 阿里巴巴端侧推理框架，同赛道竞品
[[coremltools-9]] — Apple 端侧工具链，Cactus 在 iOS 端可能基于此
[[minicpm-242]] — 端侧语言模型，Cactus 引擎可加载的典型模型
[[on-device-inference-memory-pressure]] — 端侧推理的内存优化方法论
[[edgeflow-cold-start]] — 端侧模型冷启动优化，Cactus 的 TTFT 性能相关