type: concept tags: [agent, optimization, client-side, model-selection, budget-allocation, LangGraph] related: [[clawmobile-agentic]], [[exectune-guide-core-policy]], [[edge-cloud-offloading]], [[agent-persistent-identity]], [[comllm-mec-offloading]], [[edgeflow-cold-start]] sources: - url: https://arxiv.org/abs/2604.06296 title: "AgentOpt v0.1 Technical Report: Client-Side Optimization for LLM-Based Agent" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17

AgentOpt v0.1: 客户端 Agent 优化框架¶

首个系统性研究 Agent 客户端优化的技术报告，将模型选择和预算分配建模为组合搜索问题，在 4 个基准测试上验证了比暴力搜索高 10-40x 效率提升。

核心问题¶

当前 AI Agent 优化研究几乎全部聚焦服务端——请求调度、负载均衡、推测执行、缓存复用等。但随着用户越来越多地自行编排 Agent 工作流（组合本地工具、远程 API、多种模型），客户端同样存在大量关键优化决策：

每个工作流角色应该分配哪个模型？
API 预算如何在多步骤间分配？
何时调用本地工具 vs 云端模型？
质量-成本-延迟权衡如何取舍？

这些决策高度依赖应用场景，无法由模型提供商从服务端统一优化。一个创业公司可能接受小幅精度下降换取大幅成本削减，而医疗决策系统则必须优先保障可靠性。

方法/架构¶

AgentOpt 将客户端优化建模为组合搜索问题：

问题形式化¶

每个 Agent 工作流有 K 个角色（planner、solver、answerer、critic 等）
每个角色可从 M 个候选模型中选择
总搜索空间 = M^K 种组合
目标：在固定评估预算下找到最优模型组合

搜索算法¶

论文比较了多种搜索策略： - 暴力搜索 (Brute Force)：穷举所有组合——准确但昂贵 - 随机搜索 (Random)：随机采样组合 - Greedy：逐角色贪心选择 - Matrix UCB-E：基于多臂老虎机的探索策略，表现最优

Matrix UCB-E 将每个模型组合视为一个 arm，利用 UCB 策略在探索和利用之间平衡，在较大组合空间上一致性地优于其他方法。

关键设计¶

AgentOpt 通过 httpx 传输层拦截所有 LLM 请求，用 Python contextvars 应用模型覆盖
无需修改 Agent 代码——可与任何 LangGraph/AutoGen 工作流集成
支持异步并行评估多个组合

实验结果¶

基准测试设置¶

基准	任务	管道结构	组合数
HotpotQA	多跳问答	planner + solver	81
GPQA Diamond	研究生科学	单模型	9
MathQA	数学推理	answerer + critic	81
BFCL v3	函数调用	单模型	9

评估了 9 个模型：Claude Opus 4.6、Claude Haiku 4.5、Claude 3 Haiku、gpt-oss-120b/20b、Kimi K2.5、Qwen3 Next 80B、Qwen3 32B、Ministral 3 8B。

关键发现¶

最优组合不等于最强模型： - HotpotQA 最优：Ministral 3 8B (planner) + Claude Opus 4.6 (solver) = 74.27% - 而 Claude Opus 4.6 + Claude Haiku 4.5 反而只有 31.77% - 最强模型作为 planner + 弱模型作为 solver 时反而表现差——说明模型必须在工作流上下文中评估

Matrix UCB-E 效率： - 在 81 组合空间中，Matrix UCB-E 以远少于暴力搜索的评估次数达到接近最优精度 - 暴力搜索 HotpotQA 需要 $51.90，而 Matrix UCB-E 大幅降低评估成本

模型质量是上下文相关的： - Claude Opus 4.6 在 BFCL 上与 Qwen3 Next 80B 并列最优，但后者便宜 32 倍 - 不同工作流角色对模型能力的需求完全不同

关键洞察¶

客户端 vs 服务端优化是正交的：服务端优化关注吞吐和利用率，客户端优化关注应用特定效用——两者必须协同
组合爆炸是真实问题：即使 2 个角色 × 9 个模型 = 81 种组合，暴力搜索成本已不可接受（$52-$124）
Agent 系统设计需要成本意识：客户端优化使开发者能够显式控制质量-成本权衡，这对移动端 Agent 尤为重要（端侧小模型 + 云端大模型的混合策略）
可扩展性强：论文指出框架可扩展到自适应路由、工具选择、调度和个性化策略

为什么重要¶

对手机端 AIOS 生态而言，AgentOpt 直接解决了端云协同中的核心难题：

端侧 Agent 模型选择：在手机上运行 Agent 时，需要在端侧小模型（低延迟、零成本）和云端大模型（高精度）之间动态切换
预算感知调度：移动端用户的 API 预算有限，AgentOpt 的组合优化框架天然适用于移动端的成本约束场景
与 AIOS 架构互补：[[clawmobile-agentic]] 定义了原生 Agent 系统架构，AgentOpt 提供了该架构下的资源优化方法论
客户端拦截设计：通过 httpx 传输层拦截实现透明优化，不侵入 Agent 代码——这对移动端 SDK 集成至关重要

关联¶

[[clawmobile-agentic]] — AgentOpt 的客户端优化可直接应用于 ClawMobile 的多角色管道
[[exectune-guide-core-policy]] — AgentOpt 的模型选择策略可与 ExecTune 的引导策略协同
[[edge-cloud-offloading]] — AgentOpt 提供了端云模型选择的理论框架
[[comllm-mec-offloading]] — 互补：COMLLM 处理计算卸载，AgentOpt 处理模型选择
[[edgeflow-cold-start]] — 冷启动场景下端侧模型的快速选择
[[agent-persistent-identity]] — Agent 身份与模型选择的一致性问题