跳转至

type: concept tags: [optimization, training, dpo, memory-efficiency, fine-tuning, 端侧训练] related: [[triton-dispatch-ragged-attention]], [[kv-cache-quantization-ondevice]] sources: - url: https://arxiv.org/abs/2604.15602 title: "GroupDPO: Memory efficient Group-wise Direct Preference Optimization" date: 2026-04-20 reliability: high created: 2026-04-20 updated: 2026-04-20


GroupDPO: 内存高效的群组偏好优化

通过解耦样本反向传播,大幅降低群组偏好优化的峰值内存,使其可扩展到更大规模。来自 Jixuan Leng 等人 (arXiv 2604.15602)。

核心问题

偏好优化(如 DPO)广泛用于对齐 LLM 与人类偏好,但现有方法通常每个 prompt 只用一个正-负样本对,浪费了偏好数据集中可用的额外监督信号。近期的群组偏好优化虽然尝试联合对比多个响应,但群组耦合目标的内存开销使其可扩展性未被充分探索。

方法/架构

GroupDPO 的核心创新: - 梯度保持 + 样本解耦:在反向传播过程中解耦样本,保留梯度信息的同时大幅降低峰值内存 - 群组对比:每个 prompt 使用多个候选响应进行联合偏好学习,充分利用数据集中的监督信号 - 可扩展性:内存优化使其能够在有限 GPU 内存下处理更大的群组规模

实验结果

  • 峰值内存使用相比标准群组 DPO 显著降低
  • 在对齐质量上保持或超越单对 DPO 方法
  • 可扩展到更大群组规模,充分利用偏好数据

关键洞察

对于端侧微调场景,内存效率是核心瓶颈。GroupDPO 的"梯度保持 + 样本解耦"思路可推广到其他端侧训练场景: - 在手机 NPU 上进行小规模偏好微调 - 设备端 RLHF 的内存优化 - 与 [[kv-cache-quantization-ondevice]] 类似的低精度训练策略

为什么重要

  • 端侧微调可行性:GroupDPO 降低了偏好优化的内存门槛,使设备端个性化对齐成为可能
  • 数据效率:充分利用每个 prompt 的多个响应,减少所需的 prompt 数量
  • 与量化互补:可与 FP16/INT8 量化结合,进一步降低端侧训练内存需求

关联

  • [[triton-dispatch-ragged-attention]] — 推理优化,与 GroupDPO 训练优化互补
  • [[kv-cache-quantization-ondevice]] — KV-Cache 量化,类似内存优化方向
  • [[peft]] — 参数高效微调,GroupDPO 可与其结合