miles:一个面向企业的强化学习框架,用于大规模 MoE 训练后和生产工作负载,它从 slime (清华GLM的开源项目)分支而来,并与 slime 共同发展。和slime 的区别主要是支持新的硬件(如GB300 )、适用于大型弹性模量模型的稳定、可控强化学习、生产级功能等github.com/radixark/miles该项目核心开发者盛颖(Ying Sheng) 是 LMSYS 的核心成员和 SGLang 的主要开发者,开发团队 RadixArk 则是以 SGLang 为核心技术基础成立的初创公司。也是上海交大ACM班出来的大佬。科技先锋官
