type: concept tags: [multi-agent, reinforcement-learning, ride-sharing, grpo, agent-architecture] related: [[clawmobile-agentic]], [[aipc-qualcomm-deployment-agent]], [[mga-memory-gui-agent]] sources: - url: https://arxiv.org/abs/2507.15351 title: "One Step is Enough: Multi-Agent Reinforcement Learning based on One-Step Policy Optimization" date: 2026-04-16 reliability: high created: 2026-04-17 updated: 2026-04-17
OSPO: 单步策略优化的多智能体强化学习¶
提出基于单步组奖励的多智能体策略优化方法,绕过价值函数估计,在网约车调度任务中优于 GRPO 和 PPO 基线
核心问题¶
网约车平台的订单调度是典型的多智能体问题:数百/数千辆自动驾驶车辆需要实时匹配乘客订单。传统 MARL 方法(如 DTDE)依赖价值函数估计(Q-value/V-value),在大规模、高不确定性环境中估计误差严重,导致训练不稳定和协作失效。
方法:从 GRPO 到 OSPO¶
GRPO(Group Relative Policy Optimization)¶
- 借鉴 RLHF 中的 GRPO 方法,用组平均回报替代 PPO 中的 V-value 基线
- 消除了 critic 估计误差,减少训练偏差
- 适用于同质 AV 车队(所有车辆策略相同)
OSPO(One-Step Policy Optimization)¶
核心创新:证明了在同质车队假设下,只需一步组奖励即可训练最优策略。
传统 MARL: 需要完整轨迹 → 估计 V-value → 高偏差
GRPO: 需要完整轨迹 → 组平均回报 → 无 critic 偏差
OSPO: 只需一步奖励 → 组平均 → 最简洁高效
为什么一步就够?¶
关键洞察:在同质车队中,所有智能体共享相同策略。组内平均回报已经包含了环境的统计信息,不需要多步轨迹来估计价值函数。
实验结果¶
| 方法 | 拾取时间 | 服务订单数 | 训练稳定性 |
|---|---|---|---|
| PPO (baseline) | 基线 | 基线 | 不稳定 |
| GRPO | 更优 | 更优 | 稳定 |
| OSPO | 最优 | 最优 | 最稳定 |
- 使用真实网约车数据集
- 仅需简单 MLP 网络(无需复杂架构)
- OSPO 在所有场景中均优于 GRPO
关键洞察¶
- 同质性是关键假设:所有 AV 共享相同策略使得一步优化可行——异质车队中该假设不成立
- 简化 ≠ 弱化:OSPO 证明了更简单的训练信号(一步奖励)在特定条件下等价于完整轨迹
- 对移动 AIOS 的启示:手机端多 Agent 系统(如多个 AI 助手协作)同样可能是同质或近同质的,OSPO 思路可迁移
- GRPO 的跨领域迁移:从 RLHF(语言模型对齐)到 MARL(多智能体调度)的成功迁移表明 GRPO 框架的通用性
为什么重要¶
这项工作对移动 AIOS 中的多 Agent 协作设计有直接启发: - 手机上的多个 AI Agent(助手、推荐、搜索等)通常是同质架构 → OSPO 的一步优化思路适用 - 简化训练信号降低了端侧 Agent 联合优化的计算成本 - 组相对优化消除了价值函数估计——这在资源受限的端侧环境中尤为重要
关联¶
- [[clawmobile-agentic]] — 原生 Agent 架构中的多 Agent 协调可借鉴 OSPO 的同质优化思路
- [[aipc-qualcomm-deployment-agent]] — 部署 Agent 的多阶段协调与多智能体优化有共通之处
- [[mga-memory-gui-agent]] — GUI Agent 中的多任务分配可视为多智能体问题