type: concept tags: [Agent, 强化学习, 微调, GRM, rubric, coding-agent, RLHF, DPO] related: [[groupdpo-memory-efficient-preference-optimization]], [[agent-persistent-identity]], [[memp-agent-procedural-memory]], [[obfuscation-free-rlhf]] sources: - url: https://arxiv.org/abs/2604.16335 title: "Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents" date: 2026-04-21 reliability: high created: 2026-04-21 updated: 2026-04-21
Beyond Verifiable Rewards: 基于评分标准的 Agent 强化微调¶
传统强化微调依赖"可验证奖励"(如代码能否编译通过),但真实 Agent 任务往往无法简单二分。本文提出 Rubric-Based GRM(奖励模型),用细粒度评分标准替代二值奖励,使 SWE Agent 能在更复杂的任务上获得有效强化信号。
核心问题¶
LLM Agent(尤其是编程 Agent)的强化微调面临一个根本矛盾:
- 可验证奖励太粗糙:代码要么通过测试(+1),要么失败(-1),无法区分"部分正确"和"完全错误"
- 真实任务复杂度远超二值判断:SWE 任务涉及代码风格、架构选择、边界处理等多个维度
- 稀疏奖励导致学习效率极低:Agent 几乎无法从单一的 PASS/FAIL 信号中学习中间策略
方法/架构¶
Rubric-Based GRM 的核心思路:
- 多维评分标准(Rubric):将 SWE 任务分解为多个评估维度(正确性、代码质量、测试覆盖、边界处理等),每个维度给出 0-5 分
- GRM(Generative Reward Model):训练一个专门的奖励模型,根据 Agent 提交的代码和评分标准,自动生成多维度打分
- 强化微调(Reinforced Fine-Tuning, RFT):用 GRM 生成的细粒度奖励信号代替二值信号,通过 policy gradient 优化 Agent
技术细节: - 基础模型:seed-OSS-36B(经 SFT 后的基础能力) - GRM 基于 seed-1.6 系列模型 - 评分标准涵盖:功能性、可读性、效率、鲁棒性
实验结果¶
| 方法 | SWE-Bench Verified | 通过率 | 平均 rubric 分 |
|---|---|---|---|
| SFT 基线 | 28.3% | 28.3% | 3.12 |
| 标准 RFT(二值奖励) | 31.7% | 31.7% | 3.35 |
| Rubric-Based GRM RFT | 36.2% | 36.2% | 3.78 |
关键发现: - Rubric-Based 方法在通过率上提升 4.5 个百分点 - 更显著的是平均 rubric 分提升(3.12 → 3.78),表明 Agent 在"部分正确"的任务上也有大幅改善 - 在困难任务(需要多文件修改)上优势尤为明显
关键洞察¶
- 稀疏奖励是 Agent 微调的瓶颈:二值通过/失败信号无法指导 Agent 学习中间策略,rubric 提供了稠密的梯度信号
- GRM 质量决定上限:奖励模型的评分准确性直接决定 Agent 能学到什么
- 对移动端 Agent 的启示:虽然本文聚焦编程 Agent,但 rubric-based 方法可以推广到任何 Agent 任务(手机操作、设置调整等),为端侧 Agent 微调提供了新范式
为什么重要¶
- Agent 微调范式转变:从"能否完成"到"完成质量如何"的多维度评估
- 适用于移动 AIOS Agent:手机端 Agent(如 [[secagent-mobile-gui-agent]]、[[clawmobile-agentic]])的操作任务同样需要多维度评估(操作正确性、效率、用户体验)
- 与 DPO/GRPO 互补:rubric-based 奖励可以与 [[groupdpo-memory-efficient-preference-optimization]] 等方法结合
关联¶
- [[groupdpo-memory-efficient-preference-optimization]] — 另一种偏好优化方法
- [[agent-persistent-identity]] — Agent 能力的长期演化
- [[memp-agent-procedural-memory]] — Agent 从经验中学习
- [[obfuscation-free-rlhf]] — RLHF 方法论