高效强化学习训练-优化slime中的权重同步hebiao064.github

蚁工厂 2025-09-04 22:40:44

高效强化学习训练 - 优化slime中的权重同步

hebiao064.github.io/rl-weight-sync-chinese

权重同步是指将更新好的训练端的模型权重传输给到推理端的过程,以确保推理工作节点始终使用最新的模型参数。这篇文章写了强化学习大规模训练框架 slime 是如何做权重同步及如何优化的,优化后 slime 可以做到 7s 完成训推一体下 Qwen3 30B-A3B 模型 bf16 权重的参数同步。

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注