type: concept tags: [agent-reliability, exploration-exploitation, error-metrics, evaluation, lm-agent, mobile-agent] related: [[long-horizon-task-mirage]], [[cora-mobile-gui-safety]], [[turing-test-mobile-gui]], [[pspa-bench-gui-agent]] sources: - url: https://arxiv.org/abs/2604.13151 title: "Exploration and Exploitation Errors Are Measurable for Language Model Agents" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17
Agent 探索-利用误差度量框架¶
提出一个策略无关的框架,从 Agent 的行为轨迹中量化探索误差和利用误差,无需访问 Agent 内部策略。
核心问题¶
LLM Agent 在开放决策任务中需要同时具备探索(发现新信息)和利用(应用已有知识)的能力。但现有评估方法无法从观察到的行为中系统地区分和量化这两种能力:
- 传统 RL 方法依赖 Agent 内部策略/价值函数来定义探索利用
- LLM Agent 通常只能观察到行为轨迹,无法访问内部策略
- 现有基准(如 SWE-Bench)提供整体成功率但不区分失败是因为探索不足还是利用不当
方法/架构¶
可控评估环境¶
- 任务实例化为部分可观察的 2D 网格地图,配以未知的任务 DAG(有向无环图)
- 设计灵感来自 AI 编码、工作流自动化和具身 AI 的结构:在部分观察空间中导航,同时完成具有复杂依赖关系的任务
- 关键设计选择:将任务 DAG 中的语义信息替换为符号表示,防止 Agent 利用预训练知识中的语义先验"作弊"
误差度量¶
- 不指定最优策略,而是刻画每个时间步的地图状态
- 检测轨迹片段中的结构性冗余行为——即没有合理策略会产生这种行为
- 灵感来自图论中的冗余和复用概念(Whitney 1932, Tarjan 1972)
- 每个误差归因于探索、利用或两者,取决于地图状态
环境变体¶
- 可程序化生成不同地图拓扑和任务 DAG 复杂度
- 可配置需要更多探索(更宽地图、更稀疏任务节点)或更多利用(浅路径、密集任务依赖)
实验结果/关键数据¶
评估了多个前沿 LLM Agent: - 不同模型展现不同的失败模式——有的探索失败多,有的利用失败多 - SOTA 模型在某些配置上仍然困难 - 最小化的 Agent harness 可以同时改善探索和利用——这意味着 Agent 系统设计(不仅是模型能力)对可靠性至关重要 - 提示类型和显式 Agent harness 的消融实验揭示了设计选择的重要性
关键洞察¶
- Agent 可靠性需要细粒度度量:整体成功率不足以诊断 Agent 失败原因。探索-利用分解提供了更具可操作性的诊断
- Harness 工程的重要性:研究表明简单的 Agent harness 设计改进就能显著提升探索和利用能力——对手机端 Agent 的系统设计有直接指导意义
- 符号化任务表示:通过移除语义信息防止"记忆作弊",确保评估反映 Agent 的实际推理能力而非预训练数据的巧合匹配
- 可比性基准:环境可程序化生成,允许可控比较不同 Agent 架构
为什么重要¶
对手机端 AIOS 的 Agent 可靠性评估: 1. 诊断工具:当移动 GUI Agent 失败时,可以区分是"没找到正确操作"(探索失败)还是"找到了但没执行对"(利用失败) 2. 系统设计指导:harness 改进可以提升 Agent 可靠性,而非仅仅依赖更好的模型 3. 与 [[long-horizon-task-mirage]] 的互补:后者诊断"哪里失败",此框架诊断"为什么失败"
关联¶
- [[long-horizon-task-mirage]] — 诊断 Agentic 系统在哪里失败
- [[cora-mobile-gui-safety]] — 移动 GUI Agent 安全保障
- [[turing-test-mobile-gui]] — GUI Agent 拟人化基准
- [[pspa-bench-gui-agent]] — 个性化智能手机 GUI Agent 基准
- [[clawmobile-agentic]] — 智能手机原生 Agent 系统设计
- [[secagent-mobile-gui]] — 高效移动 GUI Agent
- [[knowu-bench-personalized-agent]] — 个性化移动 Agent 评估