微软rStar-Math“导师”技术登场:教小语言模型突破数学推理

IT之家 2025-01-11 12:28:47

IT之家1月11日消息,微软亚洲研究院旗下数学和人工智能研究团队昨日(1月10日)发布博文,针对小语言模型,设计并开发了rStar-Math技术,专门用于解决数学问题。

和微软之前推出的Phi-4不同,rStar-Math采用蒙特卡洛树搜索(MonteCarloTreeSearch)进行推理,这种方法模拟了人类逐步解决问题的思维方式,能够将复杂问题分解成更小的部分,逐步求解。

研究人员要求模型输出自然语言描述和Python代码形式的“思维链”步骤,并将自然语言作为Python代码注释,仅使用Python代码输出训练模型。

研究人员训练了一个“策略模型”生成数学推理步骤,并使用“过程偏好模型”(PPM)选择最有希望的解题步骤。这两个模型通过四轮“自我进化”互相改进,不断提升性能。

研究人员使用了74万道公开的数学应用题及其解答作为初始数据,并利用上述两个模型生成了新的解题步骤。

测试结果显示,应用rStar-Math技术后,Qwen2.5-Math-7B模型的准确率从58.8%跃升至90.0%,将Phi3-mini-3.8B从41.4%提升到86.4%,分别比OpenAI的o1-preview模型高4.5%和0.9%。

研究团队已在HuggingFace上宣布,计划将rStar-Math的代码和数据在GitHub上公开,方便其他研究者使用和改进。

IT之家附上参考地址

0 阅读:1