type: concept tags: [agent, reliability, benchmark, long-horizon, planning, failure-analysis, HORIZON] related: [[clawmobile-agentic]], [[exectune-guide-core-policy]], [[agent-persistent-identity]], [[mga-memory-gui-agent]], [[synergy-agentic-web-agent]] sources: - url: https://arxiv.org/abs/2604.11978 title: "The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break" date: 2026-04-13 reliability: high created: 2026-04-17 updated: 2026-04-17
长程任务幻觉:诊断 Agentic 系统在哪里以及为何崩溃¶
UW-Madison & UC Berkeley 提出 HORIZON 跨领域诊断基准,发现 Agent 在长程任务中的崩溃不是简单的成功率下降,而是失败结构的根本性转变。规划失误和灾难性遗忘是最主要的瓶颈。
核心问题¶
LLM Agent 在短程和中程任务上表现出色,但一旦任务需要延长且相互依赖的动作序列,性能会急剧退化。这种退化不是线性的——即使很小的单步错误率,也会在依赖步骤间复合累积,导致从可靠的短程表现到几乎必然的长程崩溃。
例如:一个具身 Agent 可以可靠地完成单步操作(如移动一个彩色方块),但一旦任务需要三个顺序步骤就完全失败。
HORIZON 基准¶
跨领域诊断框架,支持系统性构建长程任务和分析失败轨迹:
- 4 个代表性领域:涵盖软件调试、操作系统工作流、迭代数据分析、具身操作
- 3100+ 轨迹收集:评估 GPT-5 系列和 Claude 系列等 SOTA 模型
- 轨迹级 LLM-as-Judge:可扩展的失败归因管道,经人工标注验证(κ=0.84)
关键设计原则¶
长程行为本质上是领域依赖的。不同领域有不同的 horizon 尺度,产生质性不同的失败机制: - 具身 Agent 可能在极少量顺序动作的任务上就出现突发性性能崩溃 - Web Agent 在相同步数下可能仍然稳健,但会受到更长依赖链的困扰
实验结果¶
| 发现 | 详情 |
|---|---|
| 失败组成转变 | 随着 horizon 增长,不是简单成功率下降,而是失败类型的结构性转变 |
| 规划相关错误 | 尤其是子规划失败,是跨领域的主要瓶颈 |
| 灾难性遗忘 | 上下文负载增加加剧了记忆和约束保留失败 |
| 轨迹依赖性 | 早期子规划偏差会传播到后续动作,产生级联效应 |
失败归因分布¶
- 子规划失败:Agent 无法正确分解任务为可执行子步骤
- 约束遗忘:在长执行过程中丢失初始约束条件
- 状态跟踪错误:无法维护中间状态的准确性
- 恢复失败:在遇到错误后无法有效地恢复和重试
关键洞察¶
"仅提升基础模型能力不太可能完全解决这些失败。"
- 规划和记忆是第一瓶颈:不是推理能力不足,而是维持目标、约束和中间状态的能力不足
- 级联效应:早期微小偏差通过依赖链放大为系统性失败
- 上下文窗口 ≠ 记忆:更长的上下文并不等于更好的长程记忆——约束保留失败随上下文负载增加而加剧
- 需要设计层面的改进:层次化和约束感知的规划、执行时的计划验证和修复、更强的长程记忆机制
对手机端 AI Agent 的意义¶
长程任务崩溃对移动端 Agent 尤其关键:
- 多步骤工作流:手机 Agent 需要完成跨多个 App 的复杂操作(如"帮我订机票、加到日历、通知同事")
- 上下文限制:移动端模型通常上下文窗口更小,更容易出现约束遗忘
- 资源约束:端侧推理延迟更高,长程任务累积的延迟更严重
- 可靠性需求:用户对手机操作的容错度更低(误操作可能造成实际损失)
未来方向¶
论文提出的设计中心研究议程: 1. 层次化约束感知规划:将长程任务分解为有约束检查点的子序列 2. 执行时计划验证和修复:在每一步验证计划完整性并在偏差时自动修复 3. 更强的长程记忆机制:超越上下文窗口的结构化记忆系统
关联¶
- [[clawmobile-agentic]] — ClawMobile 的原生 Agent 设计需要考虑长程可靠性
- [[exectune-guide-core-policy]] — Guide Model 的策略执行可作为长程验证机制
- [[agent-persistent-identity]] — Agent 持久化身份有助于维持长程上下文
- [[mga-memory-gui-agent]] — 记忆驱动的 GUI Agent 直接应对遗忘问题
- [[synergy-agentic-web-agent]] — Web Agent 面临类似的长程依赖挑战