很多朋友对于仅训练数学,但在物理,化学和生物学方面击败了O1!新的RL算法带来了重大的性能提高和不太懂,今天就由小编来为大家分享,希望可以帮助到大家,下面一起来看看吧!
仅训练数学,但在物理,化学和生物学方面击败了O1!增强学*可以提高模型推理能力,并添加另一个例子。
上海Chuangzhi Academy和上海AI实验室的MM-Eureka系列作品提出了一种新的强化学*算法CPGD(策略梯度优化,政策漂移)——
与传统的GRPO,RLOO和其他算法相比,它大大减轻了训练不稳定(甚至崩溃)的问题,并带来了重大的性能改善。
在多个基准测试中,接受GRPO训练的模型在QWENVL2.5-7B上平均增加了6,而使用CPGD的MM-Eureka-CPGD-7B使用CPGD将整体改善进一步扩大到11,验证CPGD在稳定性和性能中的双重优势。
具体而言,与基本模型QWENVL2.5-7B相比,在CPGD和15K多模式数学数据MMK12上接受培训的MM-EUREKA-CPGD-7B平均在MMK12测试集(包括数学,化学和化学培训)中,平均增加了21.8的MMK12,以及5的培训。培训数据分布之外的字段分别显示出出色的概括能力。
该模型的比例扩展到MM-Eureka-CPGD-32B,进一步超过了MMK12测试集的O1。值得注意的是,尽管MM-Eureka-CPGD-32B仅对数学数据集进行RL培训,但它在物理,化学和生物学等学科中超过了O1。
不同模型在MMK12测试集中不同学科上的表现
今年2月,他们启动了MM-Eureka系列,该系列是最早使用基于大规模的规则的RL来重现DeepSeek-R1的关键功能(例如Visual AHA-Mommoment,sha-moment,稳定的回答长度的增长)。他们还开源模型,代码,高质量的多模式数据集MMK12和过程奖励模型MM-PRM。在发布的三个月中,他们受到了学术界和开源社区的广泛关注。 ——型号已下载超过10,000次,相关代码基库已获得1,000多颗星,并引用了将近100次。
最近,MM-eureka系列工作继续在基础培训框架,高质量的多模式推理数据,高效且稳定的RL培训算法和过程奖励模型上工作,并在不久的将来取得了重要进展。
多模态强化学*框架
基于OpenRLHF,该团队建立了一个有效且可扩展的多模式增强学*框架,支持各种模型和RL算法,例如QWEN-VL和InternVL,包括GRPO,REAFCE ++,RLOO,RLOO,RLOO,RLOO,以及提议的新RL AlgorithM CPGD。它已经成功训练了诸如QWEN2.5VL-32B和InternVL2.5-38B之类的大型模型。
与现有解决方案(例如R1-V)相比,该框架具有更强的可扩展性和稳定性,为大规模多模式增强学*提供了基础设施支持。
强化学*训练的稳定性突破:CPGD算法
在探索的第一阶段,团队发现,在删除了新策略和参考模型之间的KL差异项之后,常规的强化学*培训在绩效上限和资源效率方面表现更好。但是,这很容易导致训练过程的不稳定甚至崩溃。
为此,基于GRPO算法,团队提出了诸如双边切割,在线过滤器和两阶段培训之类的响应解决方案,并构建了MM-Eureka-7b和MM-Eureka-32B型号,并获得了良好的结果。
尽管上述方法在实践中是有效的,但仍然存在诸如繁琐而不是根本原因治疗之类的问题。经过深入分析后,团队发现问题的核心在于新策略和旧策略比率的极端高价值行为。
为此,他们提出了一种新的算法CPGD(通过策略漂移剪切的策略梯度优化),其主要特征包括:
策略比率的对数处理:根据原始的PPO损失,团队将策略比率与对数进行削弱异常高值的影响并使训练过程更加稳定,从而解决了现有常规加强学*方法的问题(例如GRPO,GRPO,GRPO,增强++,RLOO,RLOO,RLOO)经常面对训练崩溃和毕业生碰撞崩溃和毕业生的效果。
介绍策略漂移术语:在损失功能中介绍新策略和旧政策之间的KL差异项,从而有效地限制了策略变化的幅度。该团队证明了CPGD控制策略漂移的能力比PPO更好,并且具有理论上的融合保证。
细粒度,可实现的损失函数形式:该团队设计了由令牌粒度计算的损失函数。与加权优势功能相结合的分式切割术语对于引入GRPO归一化非常方便,并且与在线过滤器策略的等效加权方法也兼容。
新的KL估计器:基于K3估计器,该团队构建了一种新的KL估计方法,以减轻高方差问题,同时保持梯度方向的准确性。
在CPGD的帮助下,该团队成功培训了MM-Eureka-CPGD-7B/32B的推理模型,该模型不仅显着提高了稳定性,而且进一步提高了性能。
值得注意的是,Minimax最近发布的M1模型中提出的CISPO优化算法还提出了相应的培训不稳定性瓶颈和基于策略梯度的改进解决方案,这些算法与5月开放的CPGD算法相似。
显著性能提升,泛化能力优越
对多个数据集的测试表明,CPGD带来了重大的性能改进:
与基本模型QWENVL2.5-7B相比,MM-EUREKA-CPGD-7B MMK12增加了21.8,在训练数据分布(如Mathvista和Mathvision)的领域中,它的增加了8.5和11.4,分别增加了良好的普遍化能力;与主流增强学*算法(GRPO,增强++,RLOO等)相比,CPGD在稳定性,性能和概括能力方面领先;在多个基准测试中,接受GRPO培训的模型根据QWENVL2.5-7B增加了6,而使用CPGD的MM-Eureka-CPGD-7B则进一步将整体改善扩大到11。与相同规模的开源模型相比,MM-Eureka-CPGD-32B模型接近封闭源模型的性能。
不同模型的表现
总体计算基于qwenvl2.5-7b。最佳性能模型以粗体显示,第二个最佳模型显示为下划线(不包括OpenAI-O1/GPT-4O)
不同模型的表现
总体计算基于Qwenvl2.5-32b。最佳性能模型以粗体显示,第二个最佳模型显示为下划线(不包括OpenAI-O1/GPT-4O)
高质量多模态数学数据集MMK12
为了解决单个问题类型的问题并在现有数据集中不准确的答案中,团队启动了MMK12数据集,涵盖了高中对高中的15,000多个多模式数学推理问题,涵盖了典型的领域,例如几何学,功能,功能和图形推理。

每个问题都包含:
标题和图片;标准答案;结构化思维链(经营链)解决问题的过程。评估集还提供了2,000个多项选择问题,包括数学,物理,化学,生物学和其他学科,支持跨学科和多模式推理评估。目前,MMK12已下载超过1,700次,成为多模式推理任务中的重要基准。
MM-PRM:自动化过程监督,推理路径更可信
推理不仅应关注最终答案,而且更重要的是,每个步骤是否合理。为此,团队启动了MM-PRM(多模式流程奖励模型),重点关注该模型的“如何推理”过程。
三阶段全自动过程监督过程:
使用500万个数据来训练以获得推理增强的MM-Policy模型;
结合MCT,它会自动生成700,000多个推理过程注释;
基于上述数据培训过程,奖励模型MM-PRM得到奖励,并评估和指导每一步。
它具有以下优势:
没有手动标记的有效发电:只能使用10,000 k12数学问题来生成大规模的过程监督数据;显着提高了推理路径的质量:模型推理步骤更加严格,而不是仅依靠“碰撞”答案;跨任务的强大概括:MMK12的准确率提高了近9,并且在Mathvista和Olympiadbench等挑战集上也表现出色。完整的模型适合:适应从8B到78b的多个比例模型;强大的训练稳定性:结合较小的学*率和软标签策略,以有效降低训练崩溃的风险。
对强化学*与推理能力的思考
可以独立于知识发展推理能力吗?
团队观察到,强化学*在“正确回答”的问题上显着提高了模型的表现,但是“无法正确回答”问题的效果是有限的。这表明RL主要在优化现有知识呼吁和推理路径的组织中发挥作用,但不能取代缺乏知识本身。
RL比SFT更普遍
通过实验,他们发现RL在跨学科任务(例如物理,化学,生物学)中的概括能力远高于SFT或COT-SFT。以数学和物理为例,RL的改善分别为12.8和10.8点,而其他方法几乎无效。这进一步说明了增强学*可能是提高模型逻辑推理能力的关键途径。
PRM和RL的组合具有潜力,值得进一步探索
当前的强化学*培训更多地关注最终答案的准确性,并且在推理过程中尚未完全利用中间监督信号。该小组认为,预计PRM将成为加强学*培训的重要补充。通过对模型推理过程的每个步骤进行评分和指导,PRM可以提供更细粒度的反馈,从而帮助模型更稳定地提高策略优化中推理的质量和解释性。将来,团队计划探索PRM和RL框架的组合,以构建具有“结果+过程”双重优化的多模式推理系统。这不仅有助于提高复杂推理任务中模型的鲁棒性,而且还可以为建立可控制和安全的通用推理功能奠定基础。
在战略优化和过程监督的两个核心方向上,他们分别启动了MM-Eureka-CPGD和MM-PRM,并建立了一组高度自动化,可重复的,稳定的培训和重要的多模式推理解决方案。
该解决方案在准确性和推理长度方面取得了稳定的提高。推理路径的可控性和解释性,以及多个任务和模型量表上的广泛适应和概括能力。
开源代码:
https://github.com/modalminds/mm-eureka
https://github.com/modalminds/mm-eureka/tree/mm-prm
技术报告:
https://arxiv.org/abs/2503.07365
https://arxiv.org/abs/2505.12504
https://arxiv.org/abs/2505.13427
MMK12数据集:
https://HuggingFace.co/datasets/fanqingm/mmk12
模型重量:
https://HuggingFace.co/fanqingm/mm-eureka-qwen-7b
https://HuggingFace.co/fanqingm/mm-eureka-qwen-32b
https://HuggingFace.co/zkkkai/cpgd-7b
- 超过-
标题:仅训练数学,但在物理,化学和生物学方面击败了O1!新的RL算法带来了重大的性能提高
链接:https://www.yaowan8090.com/news/xydt/48988.html
版权:文章转载自网络,如有侵权,请联系删除!
用户评论
这太厉害了!感觉AI发展的速度越来越快了。单纯训练数学模型就能胜过生物、物理等领域的大量专业知识,未来真是让人期待啊!
有12位网友表示赞同!
没想到还能用这种方法来训练AI,有点颠覆三观的感觉!以前觉得只训练数学不适用其他学科,现在看来是有很多新的可能性可以探索的。
有19位网友表示赞同!
这个新算法真的很酷炫!希望它能应用到更多领域,比如医疗、教育等等。让我们期待看到更多突破性进展吧!
有13位网友表示赞同!
说句实话,有点难以理解,数学模型是怎么达到在物理和生物领域表现优异的效果的?这背后一定藏着很多复杂的算法和数据吗?很想去看看相关的研究论文了。
有9位网友表示赞同!
我很赞赏这种探索创新的思维方式!即使只训练一个模型,也能取得超出预期的成果,这证明我们对AI的研究方向还有很大的潜力!
有14位网友表示赞同!
这个新算法能否真正取代专业的科学家呢? 我觉得还是有距离的,因为许多科学问题需要更深入的理解和思考,而不仅仅是简单的计算能力。
有16位网友表示赞同!
感觉这种研究很有前途,或许未来人工智能能帮助我们解决很多复杂的科学问题!但是也要注意伦理问题,AI应该如何被开发、应用呢?这些都需要慎重考虑。
有14位网友表示赞同!
这么厉害的算法也就能战胜O1吗?那说明现在的AI技术已经非常成熟了吗?还是说这只是某个特定领域的数据和环境下的结果呢?
有6位网友表示赞同!
这个研究成果让人看到了AI发展方向的新可能性,也许我们未来的世界会更加依赖人工智能来解决问题!
有11位网友表示赞同!
虽然我不太懂科技,但我感觉这种研究很有意思,或许有一天AI能帮助我们更好地理解宇宙。我很期待这样的未来!
有17位网友表示赞同!
只训练数学就能战胜专业知识?这听起来有点难以置信,还是需要更多的实证数据来证明它的可行性。
有8位网友表示赞同!
这个成果让我思考,人类在发展人工智能的过程中,是否应该更注重伦理道德方面的问题?如何避免AI给社会带来负面影响呢?
有19位网友表示赞同!
我对这种算法的研究很有兴趣,希望能了解更多细节信息。比如它具体是如何把数学知识应用到其他领域的? 学*学*!
有20位网友表示赞同!
感觉这样的研究会引发很多新的问题和挑战,需要我们多方面的思考和讨论才能更好地推进AI的发展。
有15位网友表示赞同!
如果一个只训练数学的模型就能取得如此优秀的成绩,那么将来我们是不是就可以用一套模型来解决所有类型的任务呢?
有5位网友表示赞同!
这个算法或许只是个开头,相信未来会诞生更多更强大的AI算法,改变我们的生活方式和思维方式!
有11位网友表示赞同!
很期待看到更多关于这个新算法的研究成果,以及它在实际应用方面的表现。 AI发展真的太让人兴奋了!
有20位网友表示赞同!
只训练数学就可以战胜其他学科?这说明 AI 的潜力确实很大,但同时也需要我们更加谨慎地思考它的发展方向和应用范围。
有19位网友表示赞同!