SkillLearnBench: Benchmarking Continual Learning Methods for Agent Skill Generation on Real-World Tasks¶

论文基本信息¶

作者: 郭晓晨等
arXiv: https://arxiv.org/abs/2604.20087
代码: https://github.com/cxcscmu/SkillLearnBench

摘要¶

技能已成为 LLM Agent 执行复杂真实任务的事实标准方式，但如何自动有效地学习技能仍不清楚。SkillLearnBench 是首个评估持续技能学习方法的基准，包含来自真实技能分类学的 20 个已验证、技能依赖的任务，跨 15 个子领域，在三个层次评估：技能质量、执行轨迹和任务结果。使用该基准评估最近的持续学习方法，发现所有方法都优于无技能基线，但持续增益仍不可靠——没有方法在所有任务和 LLM 上领先，更强 LLM 扩展也不可靠地有帮助。

核心贡献¶

SkillLearnBench 基准: 首个评估 Agent 持续技能学习的系统性基准
多层次评估: 技能质量、执行轨迹、任务结果三层次评估
20 真实任务: 来自真实技能分类学的 20 个已验证任务，15 个子领域
方法比较: 系统比较多种 CL 方法在技能学习上的表现
关键发现: 持续学习对清晰可复用工作流的任务有效，对开放性任务无效

研究背景与问题¶

Agent 需要从经验中持续学习新技能，但缺乏系统评估这一能力的基准。现有 CL 基准聚焦于分类/检测任务，不适合评估技能学习这一更复杂的能力。

核心方法¶

Skill Taxonomy Construction: 从真实世界任务中构建技能分类体系
Multi-level Evaluation: 技能质量（正确性）、轨迹质量（效率）、任务结果三层次
Method Comparison Framework: 统一评估设置下比较多种 CL 方法
LLM Backbone Analysis: 测试不同 LLM 能力下的 CL 方法表现

为什么重要¶

SkillLearnBench 为 Agent 技能持续学习提供了首个系统性评估框架。其发现（强 LLM 不一定带来更好的技能学习、开放性任务仍是挑战）对 Agent 系统的持续学习设计有重要指导意义。

与移动端/端侧相关性¶

端侧技能学习: 移动端 Agent 需要从用户交互中持续学习技能
资源受限评估: 基准考虑了计算资源限制下的技能学习效率
个性化技能: 用户特定技能的持续学习对移动端个性化至关重要