type: concept tags: [on-device, agentic, tool-calling, ios, apple, inference, comparison] related: [[orion-apple-neural-engine-llm]], [[gemma4-ondevice]], [[edge-cloud-offloading]], [[huoziime-ondevice-ime]] sources: - url: https://subralabs.com/lab/on-device-vs-cloud-llm.html title: "On-Device vs Cloud LLMs for Agentic Tool Calling" date: 2026-04-19 reliability: high created: 2026-04-19 updated: 2026-04-19
On-Device vs Cloud LLMs for Agentic Tool Calling¶
SubraLabs 在真实 iOS 应用中对比 Apple 端侧 3B 模型与 GPT-20B 云端模型的 Agentic 工具调用能力——结论是 3B 模型在复合任务上全面失败。
核心问题¶
端侧 LLM 能否胜任多步工具编排(reason → act → synthesise 循环)?这是决定移动端 Agent 能力边界的关键问题。
实验设置¶
- 应用场景: iOS 度假村目录 App 的对话式旅行顾问
- 端侧: Apple Foundation Models(iOS 26, ~3B 参数),通过 Swift @Generable 宏实现结构化生成和工具调用
- 云端: GPT-OSS 20B via OpenRouter,SSE 流式传输
- 三个工具: searchHotels(自由文本搜索)、applyFilters(结构化过滤)、searchHotelsNearAirport(哈弗赛因距离计算)
- 数据集: ~85 个度假村属性
关键发现¶
发现 1: 工具调用复杂度是瓶颈¶
3B 模型能正确识别工具并生成参数,但复合任务失败率极高:
| 失败模式 | 示例 |
|---|---|
| 计数错误 | 返回 2 个结果却说"找到 3 个匹配" |
| 自相矛盾 | "没找到匹配"→ 紧接着列出正确的 2 个结果 |
| 上下文丢失 | "其中哪些有泳池?"触发全新搜索而非过滤上一轮结果 |
Chain-of-thought、分离决策/响应阶段、few-shot 等提示工程方法均无法可靠解决。这不是提示工程问题,是参数量问题。
发现 2: 响应质量差距¶
- 云端模型维持一致的"资深旅行顾问"人设,理解隐含意图("放松的地方"→ spa 评分+环境评分)
- 端侧模型产出语法正确但缺乏语境的意大利语,更像数据库打印而非推荐
发现 3: 成本不是障碍¶
| 指标 | 数值 |
|---|---|
| 每 100K tokens 成本 | $0.005-$0.007 |
| 每次对话(5 轮) | ~8K-12K tokens |
| 每次对话成本 | ~$0.001 |
| 月 1000 次对话 | ~$0.50-$0.70 |
成本低到可以完全吸收或包含在免费增值模型中。
综合对比矩阵¶
| 维度 | 端侧 (~3B) | 云端 (20B) |
|---|---|---|
| 简单工具调用 | ✅ 可用 | ✅ 可用 |
| 复合 Agentic 任务 | ❌ 不可靠 | ✅ 可靠 |
| 响应连贯性 | 功能性 | 自然 |
| 非英语质量 | 可接受 | 强 |
| 隐私 | 完全 | 需信任提供方 |
| 延迟 | 即时首 token | 可接受(流式) |
| 离线能力 | 完全 | 无 |
| 每次对话成本 | $0 | $0.001 |
决策框架¶
- 用端侧: 单步任务(分类、提取、摘要、单工具调用+简单响应)
- 用云端: 需要多步推理、工具编排、人设一致性或强非英语生成
- 提供切换: 当用户群体包含隐私优先用户,或需要离线降级时
关键洞察¶
这项研究揭示了端侧 AI 的一个根本性边界:工具调用的机械能力 ≠ 工具结果的理解能力。3B 模型知道如何调用工具,但不知道如何解释返回的数据——计数、矛盾检测、上下文保持都失败了。这意味着端侧 Agent 目前只能做"执行层","推理层"仍需云端支持。
展望:Apple 硬件路线图暗示 2 代内可运行 7B+ 模型,届时复合任务差距可能显著缩小。
关联¶
- [[orion-apple-neural-engine-llm]] — Apple Neural Engine 上的 LLM 推理,与 Foundation Models 互补
- [[gemma4-ondevice]] — 端侧模型能力基准
- [[edge-cloud-offloading]] — 端云协同的架构选择
- [[huoziime-ondevice-ime]] — 另一个端侧 LLM 应用场景(输入法)
- [[agent-persistent-identity]] — Agent 上下文保持问题的理论框架