type: entity tags: [on-device, mobile-ai, offline, gguf, llama-cpp, stable-diffusion, whisper, privacy, tool-calling, React Native, edge-ai] related: [[ggml-llamacpp-hf]], [[mnn-350]], [[gemma4-ondevice]], [[on-device-vs-cloud-agentic-tool-calling]], [[sustainability-ondevice-intelligence]], [[mobile-aios-overview]] sources: - url: https://github.com/alichherawalla/off-grid-mobile-ai title: "Off Grid - GitHub Repository" date: 2026-04-20 reliability: high - url: https://play.google.com/store/apps/details?id=ai.offgridmobile title: "Off Grid - Google Play" date: 2026-04-20 reliability: high - url: https://apps.apple.com/us/app/off-grid-local-ai/id6759299882 title: "Off Grid - App Store" date: 2026-04-20 reliability: high created: 2026-04-20 updated: 2026-04-20
Off Grid — 端侧全功能 AI 套件¶
一句话概括:一个集成了文本生成、图像生成、视觉理解、语音转写、工具调用的端侧离线 AI 应用,支持 Android/iOS/macOS,1623 GitHub Stars。 来源:GitHub (alichherawalla/off-grid-mobile-ai), 最新版本 v0.0.89 (2026-04-17)
核心问题¶
大多数"本地 LLM"应用只提供聊天功能。Off Grid 的愿景是构建一个完整的端侧 AI 工作站——在手机上完成所有 AI 任务,数据永不离开设备。这解决了: 1. 隐私敏感场景:企业文档分析、医疗记录处理等场景需要数据本地化 2. 离线可用性:野外作业、飞机上、网络不稳定地区的 AI 需求 3. 多模态整合:将文本、视觉、语音、图像生成统一在一个端侧应用中
方法/架构¶
技术栈¶
- 框架:React Native (TypeScript) + 原生模块 (Java/Swift)
- LLM 推理:基于 llama.cpp 的 GGUF 模型运行,支持 Qwen 3、Llama 3.2、Gemma 3、Phi-4 等
- 图像生成:端侧 Stable Diffusion,NPU 加速 (骁龙) / Core ML (iOS),支持 20+ 模型
- 视觉理解:SmolVLM、Qwen3-VL、Gemma 3n
- 语音:端侧 Whisper 语音转文字
- 知识库:端侧 MiniLM 嵌入 + SQLite 向量检索 + 余弦相似度
核心功能模块¶
| 模块 | 实现 | 性能 |
|---|---|---|
| 文本生成 | GGUF 模型, streaming | 旗舰机 15-30 tok/s, 中端 5-15 tok/s |
| 图像生成 | Stable Diffusion NPU/CoreML | NPU 5-10s, CPU 15-30s |
| 视觉理解 | SmolVLM/Qwen3-VL | 旗舰机 ~7s |
| 语音转写 | Whisper 端侧 | 实时 |
| 工具调用 | 内置工具链 (搜索/计算器/知识库) | 自动 tool loop |
| 远程 LLM | OpenAI 兼容服务器发现 (Ollama/LM Studio) | SSE 流式 |
架构特点¶
- 端侧 RAG:PDF/文档通过 MiniLM 在端侧嵌入,存储在本地 SQLite,无需云端向量数据库
- 工具调用安全:内置 runaway prevention 机制,防止模型无限调用工具循环
- 混合推理:支持本地 GGUF 模型和局域网远程 LLM 无缝切换
- NPU 加速:骁龙平台使用 NPU 进行 Stable Diffusion 推理,将图像生成从 30s 压缩到 5-10s
实验结果/关键数据¶
性能基准 (2026-04)¶
| 任务 | 旗舰设备 | 中端设备 | 测试硬件 |
|---|---|---|---|
| 文本生成 | 15-30 tok/s | 5-15 tok/s | 骁龙 8 Gen 2/3, A17 Pro |
| 图像生成 (NPU) | 5-10s | — | 骁龙 8 Gen 3 |
| 图像生成 (CPU) | ~15s | ~30s | 通用 |
| 视觉推理 | ~7s | ~15s | 旗舰设备 |
| 语音转写 | 实时 | 实时 | 全平台 |
生态规模¶
- GitHub Stars: 1,623 (2026-04-20)
- 版本: v0.0.89 (2026-04-17)
- 支持平台: Android, iOS (App Store), macOS (Mac Catalyst)
- 支持模型格式: GGUF (任意量化模型)
- Topics: edge-ai, gguf, llama-cpp, local-ai, mobile-ai, offline-ai, ondevice, privacy-first
关键洞察¶
-
全功能集成是端侧 AI 应用的趋势:Off Grid 证明了将 LLM、视觉、语音、图像生成、RAG 统一到单一离线应用是可行的。这比每次开发单一功能的端侧应用更高效。
-
NPU 加速的商业价值:骁龙 NPU 将 Stable Diffusion 生成时间从 15-30s 降低到 5-10s,这使得端侧图像生成从"技术 demo"变为"可用功能"。这为更多 NPU 驱动的端侧 AI 应用铺平道路。
-
端侧 RAG 的可行性:通过 MiniLM 嵌入 + SQLite 余弦相似度,Off Grid 在手机上实现了文档级 RAG。这证明复杂的检索增强生成可以完全端侧化,无需向量数据库服务。
-
Tool Calling 安全机制:内置 runaway prevention 是一个值得借鉴的设计。端侧 tool calling 没有云端的成本约束(token 限制),更容易出现无限循环,必须有硬性限制。
-
混合本地/远程推理:自动发现局域网内 Ollama/LM Studio 服务器并无缝切换,这是端侧 AI 应用的实用创新——在手机算力不足时,自动委派到局域网高性能机器。
为什么重要¶
Off Grid 是目前功能最完整的端侧离线 AI 应用之一(1623 Stars),代表了 Mobile AIOS 生态中"应用层"的成熟方向:
- 隐私优先:完整实现了数据零外传的端侧 AI 工作流,验证了隐私计算在消费级应用中的可行性
- 多模态整合:将 LLM + 视觉 + 语音 + 图像生成统一到一个端侧应用,这是 Mobile AIOS 的核心愿景
- 模型生态兼容:支持任意 GGUF 模型,不绑定特定模型厂商,促进端侧模型生态多样性
- 硬件加速落地:骁龙 NPU 的 Stable Diffusion 加速是 NPU 在消费级应用中的成功案例
关联¶
- [[ggml-llamacpp-hf]] — Off Grid 的核心推理引擎,基于 llama.cpp 的 GGUF 模型运行
- [[mnn-350]] — 另一端侧推理框架,对比 Off Grid 的纯 llama.cpp 路线
- [[gemma4-ondevice]] — Off Grid 支持的端侧模型之一
- [[on-device-vs-cloud-agentic-tool-calling]] — Off Grid 的 tool calling 实现提供了端侧 vs 云端调用的实际案例
- [[sustainability-ondevice-intelligence]] — Off Grid 的离线模式展示了端侧 AI 的能效优势
- [[mobile-aios-overview]] — Off Grid 是 Mobile AIOS 应用层的典型代表