type: concept tags: [对齐, GRPO, 个性化, 偏好学习, 端侧微调, RLHF] related: [[gemma4-aicore]], [[agent-persistent-identity]], [[secagent-mobile-gui]] sources: - url: https://machinelearning.apple.com/research/personalized-group title: "Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment" date: 2026-04 reliability: high created: 2026-04-18 updated: 2026-04-18

P-GRPO: 个性化偏好对齐的优化框架¶

Apple 研究团队提出 Personalized GRPO，解决了标准 GRPO 在个性化场景中的系统性偏差问题——通过按偏好组独立归一化优势估计，保留少数偏好信号，实现异构偏好对齐。

核心问题¶

标准 RLHF/GRPO 方法优化一个全局目标，假设所有用户偏好一致。但实际场景中，不同用户有截然不同的偏好（如正式 vs 随意、简洁 vs 详细）。GRPO 的 group-based 归一化隐含假设所有样本可交换，导致： - 主导偏好压制少数信号：batch 内多数用户的偏好主导优势估计 - 少数用户偏好被忽略：异构偏好被平均化，失去对比信号

方法架构¶

P-GRPO 的核心创新是解耦优势估计与即时 batch 统计量：

标准 GRPO: Â = (r - μ_batch) / σ_batch
P-GRPO:   Â = (r - μ_group) / σ_group

其中 μ_group 和 σ_group 是偏好组特定的历史奖励统计量，而非当前 batch 的统计量。

关键设计¶

偏好组识别：根据用户反馈历史将样本分组
组级归一化：每个偏好组独立维护奖励历史，优势估计相对于组内历史而非当前 batch
对比信号保留：不同组之间的差异不会被 batch 归一化平均掉

实验结果¶

在多样化任务上一致收敛更快
奖励更高（相比标准 GRPO）
成功恢复并学习异构偏好信号
不牺牲通用能力

关键洞察¶

端侧个性化的核心问题：当端侧 Agent（如 Android 助手）需要适应个人用户的使用习惯时，偏好对齐至关重要。P-GRPO 提供了在端侧保持通用能力的同时学习个人偏好的方法论。
与端侧微调的结合：P-GRPO 的组级归一化机制计算开销极小（只维护组级统计量），适合在端侧设备上进行偏好微调。结合 Gemma 4 的 on-device fine-tuning 能力，可实现"千人千面"的端侧 AI。
Agent 持久化身份的对齐基础：在 [[agent-persistent-identity]] 框架中，Agent 的个性化身份需要偏好对齐作为底层支撑。P-GRPO 为每个用户维护独立的偏好模型，这正是 Agent 个性化所需的。

为什么重要¶

端侧 AI 个性化：为 on-device Agent 提供偏好对齐方法论，实现真正的个性化
Apple 端侧对齐研究：反映 Apple 在 CoreML/ANE 上实现用户级个性化的技术方向
对 Android Agent 的启示：AICore 集成的 Gemma 4 可以使用类似方法实现端侧个性化

关联¶

[[gemma4-aicore]] — Gemma 4 支持端侧微调，P-GRPO 可作为对齐方法
[[agent-persistent-identity]] — Agent 持久化身份需要个性化偏好对齐
[[secagent-mobile-gui]] — GUI Agent 的用户适配需要偏好学习
[[lacy-small-model-token-selection]] — Apple 的另一项小模型优化研究