跳转至

type: concept tags: [agent, reliability, benchmark, long-horizon, planning, failure-analysis, HORIZON] related: [[clawmobile-agentic]], [[exectune-guide-core-policy]], [[agent-persistent-identity]], [[mga-memory-gui-agent]], [[synergy-agentic-web-agent]] sources: - url: https://arxiv.org/abs/2604.11978 title: "The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break" date: 2026-04-13 reliability: high created: 2026-04-17 updated: 2026-04-17


长程任务幻觉:诊断 Agentic 系统在哪里以及为何崩溃

UW-Madison & UC Berkeley 提出 HORIZON 跨领域诊断基准,发现 Agent 在长程任务中的崩溃不是简单的成功率下降,而是失败结构的根本性转变。规划失误和灾难性遗忘是最主要的瓶颈。

核心问题

LLM Agent 在短程和中程任务上表现出色,但一旦任务需要延长且相互依赖的动作序列,性能会急剧退化。这种退化不是线性的——即使很小的单步错误率,也会在依赖步骤间复合累积,导致从可靠的短程表现到几乎必然的长程崩溃。

例如:一个具身 Agent 可以可靠地完成单步操作(如移动一个彩色方块),但一旦任务需要三个顺序步骤就完全失败。

HORIZON 基准

跨领域诊断框架,支持系统性构建长程任务和分析失败轨迹:

  • 4 个代表性领域:涵盖软件调试、操作系统工作流、迭代数据分析、具身操作
  • 3100+ 轨迹收集:评估 GPT-5 系列和 Claude 系列等 SOTA 模型
  • 轨迹级 LLM-as-Judge:可扩展的失败归因管道,经人工标注验证(κ=0.84)

关键设计原则

长程行为本质上是领域依赖的。不同领域有不同的 horizon 尺度,产生质性不同的失败机制: - 具身 Agent 可能在极少量顺序动作的任务上就出现突发性性能崩溃 - Web Agent 在相同步数下可能仍然稳健,但会受到更长依赖链的困扰

实验结果

发现 详情
失败组成转变 随着 horizon 增长,不是简单成功率下降,而是失败类型的结构性转变
规划相关错误 尤其是子规划失败,是跨领域的主要瓶颈
灾难性遗忘 上下文负载增加加剧了记忆和约束保留失败
轨迹依赖性 早期子规划偏差会传播到后续动作,产生级联效应

失败归因分布

  • 子规划失败:Agent 无法正确分解任务为可执行子步骤
  • 约束遗忘:在长执行过程中丢失初始约束条件
  • 状态跟踪错误:无法维护中间状态的准确性
  • 恢复失败:在遇到错误后无法有效地恢复和重试

关键洞察

"仅提升基础模型能力不太可能完全解决这些失败。"

  1. 规划和记忆是第一瓶颈:不是推理能力不足,而是维持目标、约束和中间状态的能力不足
  2. 级联效应:早期微小偏差通过依赖链放大为系统性失败
  3. 上下文窗口 ≠ 记忆:更长的上下文并不等于更好的长程记忆——约束保留失败随上下文负载增加而加剧
  4. 需要设计层面的改进:层次化和约束感知的规划、执行时的计划验证和修复、更强的长程记忆机制

对手机端 AI Agent 的意义

长程任务崩溃对移动端 Agent 尤其关键:

  • 多步骤工作流:手机 Agent 需要完成跨多个 App 的复杂操作(如"帮我订机票、加到日历、通知同事")
  • 上下文限制:移动端模型通常上下文窗口更小,更容易出现约束遗忘
  • 资源约束:端侧推理延迟更高,长程任务累积的延迟更严重
  • 可靠性需求:用户对手机操作的容错度更低(误操作可能造成实际损失)

未来方向

论文提出的设计中心研究议程: 1. 层次化约束感知规划:将长程任务分解为有约束检查点的子序列 2. 执行时计划验证和修复:在每一步验证计划完整性并在偏差时自动修复 3. 更强的长程记忆机制:超越上下文窗口的结构化记忆系统

关联

  • [[clawmobile-agentic]] — ClawMobile 的原生 Agent 设计需要考虑长程可靠性
  • [[exectune-guide-core-policy]] — Guide Model 的策略执行可作为长程验证机制
  • [[agent-persistent-identity]] — Agent 持久化身份有助于维持长程上下文
  • [[mga-memory-gui-agent]] — 记忆驱动的 GUI Agent 直接应对遗忘问题
  • [[synergy-agentic-web-agent]] — Web Agent 面临类似的长程依赖挑战