作者简介:李刚,德克萨斯农工大学博士生,专注于设计和应用高效算法到大规模人工智能和机器学习任务,包括改进大规模基础模型的后训练算法、鲁棒的对抗性学习算法和鲁棒的分布式学习算法。在NeurIPS、ICML、KDD等重要会议上发表多篇论文,并作为主要贡献者之一发布了著名的用于不平衡分类任务的LibAUC软件包。 DeepSeek-R1 的成功引起了人们对群体相对策略优化(GRPO)作为大规模推理模型(LRM)的强化学习技术的广泛关注。在本文中,作者分析了二元奖励设置下 GRPO 的优化目标,发现了其相对群体优势函数引起的问题难度的内在局限性,并揭示了 GRPO 与传统的关系传统的判别式监督学习方法。基于这些分析的结果,作者提出了一种新的判别约束优化(DisCO)框架来改进大规模推理模型。该框架基于歧视学习的基本原则。也就是说,正确答案的分数增加,错误答案的分数减少。与 GRPO 及其变体相比,DisCO 具有以下优点: 通过采用判别性优化目标,我们完全消除了难度偏差。通过使用未修剪的评分函数和约束优化技术,GRPO 及其变体的熵不稳定性得到解决,从而获得长期稳定的训练动态。这允许结合使用先进的判别性学习技术来解决数据不平衡问题,例如训练过程中的一些问题。错误答案比正确答案多得多。提高数学推理能力的实验大型模型的性能表明,DisCO 显着优于 GRPO 及其变体(例如 DAPO),在 1.5 亿个模型的 6 个基准任务上,平均比 GRPO 高 7%,比 DAPO 高 6%。最大响应长度为8k的磁盘值得注意的是,O甚至比最大响应长度为32k的GRPO还要好。这篇文章以“5,5,5,5”的高分被 NeurIPS 2025 录用。文章标题:DisCO: Boosting Large-Scale Reasoning Models with Discriminative Constrained Optimization 文章地址:https://arxiv.org/abs/2505.12366 开源模型地址:https://huggingface.co/collections/ganglii/disco-681b705decb9979e65614d65 GitHub 地址:Analog of 难度偏差问题见https://github.com/Optimization-AI/DisCOGRPO GRPO的核心思想是针对一个输入问题q生成多个结果并定义一个相对群体优势函数。当使用预期形状而不是经验平均值时,最佳值其中,从上面的变异分析中,作者得到了两个重要的发现: 1. 与判别式监督学习的相关性 2. 难度偏差 提出的方法:判别式强化学习 1. 判别式目标函数(类似AUC优化)是基于上述和AUC,通过分析最大化相关性,作者发现了以下内容。我们直接从判别式学习的原理出发,重新设计了一个新的判别式强化学习框架:避免这种现象2。基于DRO的判别目标函数(类似于局部AUC优化)。基于判别性学习原理设计目标函数的优点是可以使用文献中先进的监督学习技术来改进训练。微调推理模型强化学习的主要挑战是奖励稀缺,这会导致响应生成不平衡。具体来说,对于某些问题,包含错误答案的结果数量可能明显超过正确答案的数量,反映了典型的数据不平衡问题。这个问题在歧视学习领域得到了广泛的研究。 Q为了解决这个问题,作者使用局部 AUC 优化设计了分布式鲁棒性优化 (DRO) 目标。 3.约束优化(稳定训练) 为了使训练稳定,作者利用TRPO的信赖域思想,添加一个KL散度约束,形成如下优化问题。与TRPO二次优化方法不同,作者采用了最近开发的非凸不等式约束。应用优化策略并将约束替换为软方形铰链惩罚(方形铰链惩罚)。为了将实验结果与分析测试的有效性进行比较,作者使用平均 DisCO 和其他参考方法对六个数学参考数据集,使用 16 个结果中的 Pass@1 作为评估指标。在下表中,pod我们看到作者提出的DisCO方法总是显着优于其他参考方法。特别是,训练和推理长度为 8k 的 DisCO (log-L) 与 GRPO 相比平均提高了 7%,并且优于 DeepScaleR-1.5B-Preview(使用最大长度 24k 进行训练并使用 32k 长度进行评估)。在模型 7B 的实验中,DisCO 的性能也显着优于所有基线方法,与 GRPO 相比平均提高了 3.5%。在上表中,作者展示了模型1.5B中不同强化学习技术的有效性比较。作者还添加了 OpenAI 的 o1 预览模型作为基准。表中的MRL(最大响应长度)表示训练或测试期间使用的最大响应长度。长响应限制了模型可以生成的时间推理结果。阴影模型是其他团队训练的结果,相应的指标也来自原始论文或 DeepScalaR 项目。除此之外,其余的结果都是通过对现有模型的直接评估或基于不同方法训练后获得的结果获得的。表下半部分中的所有方法都基于相同的数据集 (DeepScaleR)。请注意,这是拟合 pSeek-R1-Distill-Qwen-1.5B 模型的结果。其中,DS是DeepSeek-R1的缩写,DSR是DeepScalaR的缩写。训练动态比较随着大规模强化学习成为改进推理模型的核心技术,学习算法的稳定性非常重要,因为它决定了学习算法是否适合大规模训练。作者在训练奖励和生成熵方面比较了不同方法的训练动态。从下图中模型1.5B和7B的微调实验可以看到,由于GRPO、GRPO-ER、Dr.GRPO的熵下降以及DAPO的熵增加过多,我们只能获得过早的确定性策略或高度随机性的策略,并且所有基线都经历了过早的饱和。使用发散 KL 正则化在 TRPA 的后续步骤中也可以观察到生成的不稳定熵。相比之下,作者提出的具有两个未修剪评分函数的 DisCO 方法是最稳定的,因为它增加了训练奖励并产生相对稳定的熵。上图展示了不同方法在训练过程中的动态表现。左边两图是训练1.5B模型时intraining的情况,右边两图对应的是7B模型的训练。图 (a) 和 (c) 显示了训练奖励与训练步骤数的函数关系。这里,奖励是a的平均分为每个步骤中用于训练的问题生成答案。图 (b) 和 (d) 显示了生成结果的熵值(反映输出多样性)作为训练步骤数的函数。消融实验如下图所示,作者提出的每个组件对于改进 DisCO 都很重要,而使用未修剪的评分函数是关键。总结 在这项研究中,作者强化了大规模推理模型,以消除难度偏差和熵崩溃。我们提出了一种新的约束判别优化框架来避免该问题。我经历的数学推理测试表明,我们的方法显着优于 GRPO 及其最新变体。虽然这项工作主要关注二元奖励,但对于非二元奖励,您可以考虑在监督学习中使用客观排名函数或在设计中使用其他新颖的评分函数。作者将应用程序留给未来的研究约束判别优化以适应大规模模型和其他推理任务。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。是的,本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由提供i存储服务的社交媒体平台网易号用户上传发布。仅供参考。