NeurIPS 25 | GRPO进阶版来了，GVPO重构大模型后训练范式

2025/10/14

大模型后训练（post-training）正在成为 AI 进化的关键一环。从最早的 SFT（监督微调），再到近来大火的 GRPO，一条核心主线贯穿始终：如何让大模型具有更强的推理能力、更好地对齐人类偏好，同时保持稳定和高效。

然而，GRPO 虽然在 DeepSeek-R1 等项目中大放异彩，但其训练不稳定、超参数敏感的问题一直限制其大规模落地。

现在，作业帮团队联合香港科技大学（广州）在 NeurIPS 2025 上提出了全新方法：GVPO（Group Variance Policy Optimization）。GVPO 通过避免重要性采样解决了 GRPO 的稳定性难题，并能在理论上提供了唯一最优解保证，并且在实验中表现全面超越现有方法。

论文标题: GVPO: Group Variance Policy Optimization for Large Language Model Post-Training
论文链接：https://arxiv.org/abs/2504.19599
作者：张恺晨、洪煜中、鲍军威、蒋宏飞、宋旸、洪定乾、熊辉
单位：作业帮教育科技有限公司、香港科技大学（广州）

GVPO 设计动机

但这里存在一个实际困难：公式中涉及的 Z (x)，它需要对所有可能的采样 y 进行期望计算，在实践中几乎不可行。为了解决这个问题，研究团队发现：只要保证同一个 prompt 下所有采样对应的梯度权重之和为 0，Z (x) 就会自然消掉，从而规避了这一计算难题。

GVPO 是什么？

基于这一思路，研究团队首先提出了以梯度形式表示的 GVPO Loss:

研究团队进一步分析后发现，GVPO 拥有非常直观的物理意义。其 Loss 等价于一个均方误差损失（MSE Loss）：

换句话说，GVPO 在本质上是用 MSE Loss 让「隐式奖励」去逼近「真实奖励」。

两大关键优势

1. 唯一最优解保证

2. 无须重要性采样

这意味着 GVPO 能够天然支持无需重要性采样的 off-policy 训练，在充分利用人类专家数据、蒸馏数据和历史数据的同时，避免了重要性采样常见的训练不稳定问题，从而更契合大规模工业级应用场景。

三种分析视角：从不同角度理解 GVPO

研究团队发现 GVPO 的核心思想可以从三个互补的分析视角来理解，每一种都对应着图中展示的等价损失函数：

1. 负对数似然视角（NLL）

在这个视角下，GVPO 的损失函数可以表示为带权重的负对数似然。一个关键点是：带 KL 约束的 Policy Gradient 实际上可以看作 GVPO 在 on-policy 采样下的特例。换句话说，GVPO 不仅涵盖了传统策略梯度方法的更新方式，还进一步解耦了采样分布与学习策略，从而允许灵活地整合历史数据和异构数据源，为大模型后训练打开了更高效的训练方式。

2. 均方误差视角（MSE）

从 MSE 角度看，GVPO 的优化目标等价于最小化「隐式奖励中心距离」与「实际奖励中心距离」的偏差。这一解释带来直观的物理含义：当隐式奖励完全对齐实际奖励时，损失达到最小。更重要的是，这种设计保证了 GVPO 收敛到唯一的、KL 约束下的全局最优解，为稳定训练提供了理论保证。

3. 强化学习视角（RL）

RL 视角揭示了 GVPO 损失函数的三大组成部分：

组相对奖励项：推动高回报响应占据更大概率；
方差正则项：自然引入适度探索，避免熵塌缩；
协方差正则项：作为正则化，抑制策略过度偏离参考策略，保障训练稳定性。

这三种视角共同说明：GVPO 既有理论保证，又兼具灵活性和稳定性，将复杂的优化过程转化为可解释的数学框架。

实验结果：全面胜出

研究团队在数学推理任务上进行了系统对比。基座模型为 Qwen2.5-Math-7B，在 AIME2024、AMC、MATH500、Minerva、OlympiadBench 五个基准测试中：

GVPO 全面领先，不仅大幅提升基座模型表现，还超过 GRPO 和改进版 Dr.GRPO。在复杂推理任务中优势尤为明显。

此外，消融实验显示：

GVPO 对超参数 β 不敏感，几乎无需繁琐调参。（Figure 2）
GVPO 在采样数量 k 增加时扩展性优异，并且小模型甚至能靠增加采样追平大模型表现。（Figure 3）
GVPO 支持混合采样策略（历史数据 + 新数据），进一步降低成本，并且连接了现代大模型研究和传统强化学习探索策略研究。（Figure 4）

意义与前景

一句话总结：GVPO 让后训练从「经验驱动」走向「理论保证」，既「稳」又「强」。

在大模型迈向通用智能的道路上，后训练已经成为竞争焦点。GVPO 的提出，可能预示着下一代后训练的范式转变：

更稳定 → 降低大规模训练的工程风险
更灵活 → 支撑更复杂的数据利用场景
更高效 → 在推理和对齐中获得更佳的性价比

研究团队认为，GVPO 为可靠、通用的大模型后训练提供了全新范式。

上一篇 : 阿里高德提出Tree-GRPO，高效破解智能体RL难题下一篇 : 上海AI Lab推出科研智能体FlowSearch，将科研脏活累活丢给AI！

预约演示

NeurIPS 25 | GRPO进阶版来了，GVPO重构大模型后训练范式