大模型后训练(post-training)正在成为 AI 进化的关键一环。从最早的 SFT(监督微调),再到近来大火的 GRPO,一条核心主线贯穿始终:如何让大模型具有更强的推理能力、更好地对齐人类偏好,同时保持稳定和高效。
然而,GRPO 虽然在 DeepSeek-R1 等项目中大放异彩,但其训练不稳定、超参数敏感的问题一直限制其大规模落地。
现在,作业帮团队联合香港科技大学(广州)在 NeurIPS 2025 上提出了全新方法:GVPO(Group Variance Policy Optimization)。GVPO 通过避免重要性采样解决了 GRPO 的稳定性难题,并能在理论上提供了唯一最优解保证,并且在实验中表现全面超越现有方法。
GVPO 设计动机
但这里存在一个实际困难:公式中涉及的 Z (x),它需要对所有可能的采样 y 进行期望计算,在实践中几乎不可行。为了解决这个问题,研究团队发现:只要保证同一个 prompt 下所有采样对应的梯度权重之和为 0,Z (x) 就会自然消掉,从而规避了这一计算难题。
GVPO 是什么?
基于这一思路,研究团队首先提出了以梯度形式表示的 GVPO Loss:
研究团队进一步分析后发现,GVPO 拥有非常直观的物理意义。其 Loss 等价于一个均方误差损失(MSE Loss):
换句话说,GVPO 在本质上是用 MSE Loss 让「隐式奖励」去逼近「真实奖励」。
两大关键优势
1. 唯一最优解保证
2. 无须重要性采样
这意味着 GVPO 能够天然支持无需重要性采样的 off-policy 训练,在充分利用人类专家数据、蒸馏数据和历史数据的同时,避免了重要性采样常见的训练不稳定问题,从而更契合大规模工业级应用场景。
三种分析视角:从不同角度理解 GVPO
研究团队发现 GVPO 的核心思想可以从三个互补的分析视角来理解,每一种都对应着图中展示的等价损失函数:
1. 负对数似然视角(NLL)
在这个视角下,GVPO 的损失函数可以表示为带权重的负对数似然。一个关键点是:带 KL 约束的 Policy Gradient 实际上可以看作 GVPO 在 on-policy 采样下的特例。换句话说,GVPO 不仅涵盖了传统策略梯度方法的更新方式,还进一步解耦了采样分布与学习策略,从而允许灵活地整合历史数据和异构数据源,为大模型后训练打开了更高效的训练方式。
2. 均方误差视角(MSE)
从 MSE 角度看,GVPO 的优化目标等价于最小化「隐式奖励中心距离」与「实际奖励中心距离」的偏差。这一解释带来直观的物理含义:当隐式奖励完全对齐实际奖励时,损失达到最小。更重要的是,这种设计保证了 GVPO 收敛到唯一的、KL 约束下的全局最优解,为稳定训练提供了理论保证。
3. 强化学习视角(RL)
RL 视角揭示了 GVPO 损失函数的三大组成部分:
这三种视角共同说明:GVPO 既有理论保证,又兼具灵活性和稳定性,将复杂的优化过程转化为可解释的数学框架。
实验结果:全面胜出
研究团队在数学推理任务上进行了系统对比。基座模型为 Qwen2.5-Math-7B,在 AIME2024、AMC、MATH500、Minerva、OlympiadBench 五个基准测试中:
GVPO 全面领先,不仅大幅提升基座模型表现,还超过 GRPO 和改进版 Dr.GRPO。在复杂推理任务中优势尤为明显。
此外,消融实验显示:
意义与前景
一句话总结:GVPO 让后训练从「经验驱动」走向「理论保证」,既「稳」又「强」。
在大模型迈向通用智能的道路上,后训练已经成为竞争焦点。GVPO 的提出,可能预示着下一代后训练的范式转变:
研究团队认为,GVPO 为可靠、通用的大模型后训练提供了全新范式。