type: entity tags: [on-device, mobile-ai, offline, gguf, llama-cpp, stable-diffusion, whisper, privacy, tool-calling, React Native, edge-ai] related: [[ggml-llamacpp-hf]], [[mnn-350]], [[gemma4-ondevice]], [[on-device-vs-cloud-agentic-tool-calling]], [[sustainability-ondevice-intelligence]], [[mobile-aios-overview]] sources: - url: https://github.com/alichherawalla/off-grid-mobile-ai title: "Off Grid - GitHub Repository" date: 2026-04-20 reliability: high - url: https://play.google.com/store/apps/details?id=ai.offgridmobile title: "Off Grid - Google Play" date: 2026-04-20 reliability: high - url: https://apps.apple.com/us/app/off-grid-local-ai/id6759299882 title: "Off Grid - App Store" date: 2026-04-20 reliability: high created: 2026-04-20 updated: 2026-04-20

Off Grid — 端侧全功能 AI 套件¶

一句话概括：一个集成了文本生成、图像生成、视觉理解、语音转写、工具调用的端侧离线 AI 应用，支持 Android/iOS/macOS，1623 GitHub Stars。来源：GitHub (alichherawalla/off-grid-mobile-ai), 最新版本 v0.0.89 (2026-04-17)

核心问题¶

大多数"本地 LLM"应用只提供聊天功能。Off Grid 的愿景是构建一个完整的端侧 AI 工作站——在手机上完成所有 AI 任务，数据永不离开设备。这解决了： 1. 隐私敏感场景：企业文档分析、医疗记录处理等场景需要数据本地化 2. 离线可用性：野外作业、飞机上、网络不稳定地区的 AI 需求 3. 多模态整合：将文本、视觉、语音、图像生成统一在一个端侧应用中

方法/架构¶

技术栈¶

框架：React Native (TypeScript) + 原生模块 (Java/Swift)
LLM 推理：基于 llama.cpp 的 GGUF 模型运行，支持 Qwen 3、Llama 3.2、Gemma 3、Phi-4 等
图像生成：端侧 Stable Diffusion，NPU 加速 (骁龙) / Core ML (iOS)，支持 20+ 模型
视觉理解：SmolVLM、Qwen3-VL、Gemma 3n
语音：端侧 Whisper 语音转文字
知识库：端侧 MiniLM 嵌入 + SQLite 向量检索 + 余弦相似度

核心功能模块¶

模块	实现	性能
文本生成	GGUF 模型, streaming	旗舰机 15-30 tok/s, 中端 5-15 tok/s
图像生成	Stable Diffusion NPU/CoreML	NPU 5-10s, CPU 15-30s
视觉理解	SmolVLM/Qwen3-VL	旗舰机 ~7s
语音转写	Whisper 端侧	实时
工具调用	内置工具链 (搜索/计算器/知识库)	自动 tool loop
远程 LLM	OpenAI 兼容服务器发现 (Ollama/LM Studio)	SSE 流式

架构特点¶

端侧 RAG：PDF/文档通过 MiniLM 在端侧嵌入，存储在本地 SQLite，无需云端向量数据库
工具调用安全：内置 runaway prevention 机制，防止模型无限调用工具循环
混合推理：支持本地 GGUF 模型和局域网远程 LLM 无缝切换
NPU 加速：骁龙平台使用 NPU 进行 Stable Diffusion 推理，将图像生成从 30s 压缩到 5-10s

实验结果/关键数据¶

性能基准 (2026-04)¶

任务	旗舰设备	中端设备	测试硬件
文本生成	15-30 tok/s	5-15 tok/s	骁龙 8 Gen 2/3, A17 Pro
图像生成 (NPU)	5-10s	—	骁龙 8 Gen 3
图像生成 (CPU)	~15s	~30s	通用
视觉推理	~7s	~15s	旗舰设备
语音转写	实时	实时	全平台

生态规模¶

GitHub Stars: 1,623 (2026-04-20)
版本: v0.0.89 (2026-04-17)
支持平台: Android, iOS (App Store), macOS (Mac Catalyst)
支持模型格式: GGUF (任意量化模型)
Topics: edge-ai, gguf, llama-cpp, local-ai, mobile-ai, offline-ai, ondevice, privacy-first

关键洞察¶

全功能集成是端侧 AI 应用的趋势：Off Grid 证明了将 LLM、视觉、语音、图像生成、RAG 统一到单一离线应用是可行的。这比每次开发单一功能的端侧应用更高效。
NPU 加速的商业价值：骁龙 NPU 将 Stable Diffusion 生成时间从 15-30s 降低到 5-10s，这使得端侧图像生成从"技术 demo"变为"可用功能"。这为更多 NPU 驱动的端侧 AI 应用铺平道路。
端侧 RAG 的可行性：通过 MiniLM 嵌入 + SQLite 余弦相似度，Off Grid 在手机上实现了文档级 RAG。这证明复杂的检索增强生成可以完全端侧化，无需向量数据库服务。
Tool Calling 安全机制：内置 runaway prevention 是一个值得借鉴的设计。端侧 tool calling 没有云端的成本约束（token 限制），更容易出现无限循环，必须有硬性限制。
混合本地/远程推理：自动发现局域网内 Ollama/LM Studio 服务器并无缝切换，这是端侧 AI 应用的实用创新——在手机算力不足时，自动委派到局域网高性能机器。

为什么重要¶

Off Grid 是目前功能最完整的端侧离线 AI 应用之一（1623 Stars），代表了 Mobile AIOS 生态中"应用层"的成熟方向：

隐私优先：完整实现了数据零外传的端侧 AI 工作流，验证了隐私计算在消费级应用中的可行性
多模态整合：将 LLM + 视觉 + 语音 + 图像生成统一到一个端侧应用，这是 Mobile AIOS 的核心愿景
模型生态兼容：支持任意 GGUF 模型，不绑定特定模型厂商，促进端侧模型生态多样性
硬件加速落地：骁龙 NPU 的 Stable Diffusion 加速是 NPU 在消费级应用中的成功案例

关联¶

[[ggml-llamacpp-hf]] — Off Grid 的核心推理引擎，基于 llama.cpp 的 GGUF 模型运行
[[mnn-350]] — 另一端侧推理框架，对比 Off Grid 的纯 llama.cpp 路线
[[gemma4-ondevice]] — Off Grid 支持的端侧模型之一
[[on-device-vs-cloud-agentic-tool-calling]] — Off Grid 的 tool calling 实现提供了端侧 vs 云端调用的实际案例
[[sustainability-ondevice-intelligence]] — Off Grid 的离线模式展示了端侧 AI 的能效优势
[[mobile-aios-overview]] — Off Grid 是 Mobile AIOS 应用层的典型代表