type: concept tags: [on-device, cloud, agentic, tool-calling, ios, apple, inference, 端侧推理, Agent] related: [[apple-intelligence]], [[coremltools-9]], [[gemma4-ondevice]], [[clawmobile-agentic]] sources: - url: https://subralabs.com/lab/on-device-vs-cloud-llm.html title: "On-Device vs Cloud LLMs for Agentic Tool Calling in a Real iOS App" date: 2026-04 reliability: high created: 2026-04-19 updated: 2026-04-19
端侧 vs 云端 LLM:真实iOS应用中的Agent工具调用对比¶
SubraLabs在iOS度假搜索应用中对比Apple端侧Foundation Models(~3B)与GPT-OSS 20B(云端)的Agent工具调用能力。核心发现:3B模型的瓶颈不是"能不能调工具",而是"能不能正确理解和整合工具返回的结果"。
核心问题¶
当端侧LLM(如Apple Foundation Models的3B模型)执行Agent工具调用时: - 能否正确识别要调用的工具? - 能否正确解释工具返回的结果? - 能否在多步骤推理中保持上下文连贯? - 是否在所有场景下都足够可用?
方法/架构¶
测试场景¶
一个iOS度假搜索应用,需要Agent执行三步循环:reason(推理)→ act(执行)→ synthesise(整合):
- searchHotels — 自由文本搜索(名称、位置、标签)
- applyFilters — 结构化过滤(区域、价格、评分、设施)
- searchHotelsNearAirport — 基于机场距离的搜索
关键复杂度:不是单次工具调用,而是多步链式调用 + 结果理解 + 自然语言合成。响应语言为意大利语,需要保持度假顾问人格。
对比方案¶
- 端侧:Apple Foundation Models(~3B参数,iOS 26原生,支持@Generable结构化输出)
- 云端:GPT-OSS 20B via OpenRouter(SSE流式传输,工具调用在本地执行)
实验结果/关键数据¶
Finding #1: 工具调用复杂度是瓶颈¶
3B模型能正确识别工具和生成有效参数。问题出现在复合任务:
| 失败模式 | 示例 |
|---|---|
| 计数错误 | 工具返回2个结果,模型说"有3个匹配"并列出正确的2个 |
| 自我否定 | 正确呈现结果后说"没找到符合条件的" |
| 上文丢失 | 用户追问"哪些有泳池?"时触发全新搜索而非过滤已有结果 |
尝试过的修复方法(均失败): - Chain-of-thought提示 - 分离"决策"和"响应"阶段 - Few-shot示例 - 极简系统提示
结论:这不是提示工程问题,是参数规模问题。GPT-OSS 20B处理这些复合任务毫无困难。
Finding #2: 响应质量和语言¶
云端模型在多语言场景下表现显著更优: - 端侧模型偶尔切换语言或输出不自然的翻译腔 - 云端模型保持一致的度假顾问人格和地道的意大利语
Finding #3: 延迟对比¶
| 指标 | 端侧(3B) | 云端(20B) |
|---|---|---|
| 首token延迟 | ~0ms | ~200-500ms |
| 完整响应 | 3-8秒 | 2-5秒 |
| 网络依赖 | 无 | 必需 |
端侧模型虽然"零首token延迟",但因为需要更长的思考时间,整体响应时间与云端相当甚至更慢。
关键洞察¶
"能调工具"≠"能做好Agent":端侧3B模型可以正确执行单次工具调用,但在多步推理、结果理解和上下文维护上表现不足。这说明端侧Agent的评估不能仅看"工具调用成功率",还要看"复合任务完成质量"。
参数规模的硬边界:在当前技术水平下,3B模型在复杂Agent任务上存在明确的能力天花板。这不意味着端侧不可行,而是需要: 1. 针对Agent任务进行专门微调 2. 将复杂任务拆分为更简单的子任务 3. 使用云端作为"困难任务"的fallback([[android-hybrid-inference]])
离线≠首选:虽然端侧模型支持完全离线运行,但在网络可用时,云端20B的性价比更高。端侧更适合作为离线备份或隐私敏感场景的首选。
对端侧Agent架构的启示: - 3B模型适合单步工具调用场景(搜索、过滤等简单操作) - 复杂Agent流程需要更大的模型或[[clawmobile-agentic]]中的专门架构 - 混合部署是当前最优解:端侧处理简单任务,云端处理复杂推理
为什么重要¶
这是第一个在真实iOS应用中对比端侧和云端LLM的Agent工具调用能力的实证研究。它量化了端侧模型在Agent场景下的能力边界,对以下决策有直接指导意义:
- 端侧Agent的适用场景:单步工具调用 ✓,多步复合推理 ✗
- 混合架构的必要性:端侧+云端的[[android-hybrid-inference]]方案在Agent场景下尤为必要
- Apple Foundation Models的定位:3B模型是"够用的起点",但不是Agent复杂推理的解决方案
关联¶
- [[apple-intelligence]] — Apple端侧AI生态的核心组件,Foundation Models框架是其推理引擎
- [[coremltools-9]] — Core ML工具链,用于模型部署和优化
- [[gemma4-ondevice]] — Google的端侧模型,规模更大但部署方式不同
- [[clawmobile-agentic]] — 原生Agent架构设计,讨论了如何在移动端实现可靠Agent
- [[android-hybrid-inference]] — 端云混合推理模式,本文的研究结果支持这种架构选择