使用InstinctMI250GPU训练而成,AMD发布开源模型OLMo

逢纪说科技 2024-11-16 00:35:07

AMD自行开发开源模型,客户能够使用AMD硬件部署模型。通过AMD的开源数据、权重、训练方法、程序代码,让开发者不仅能够复制模型,且在模型基础上进行创新开发。

AMD近日发布一系列完全开源的10亿参数(1B)语言模型OLMo,这款在AMD Instinct MI250 GPU从头开始训练,可应用于各种应用程序。OLMo除数据中心使用外,更支持配备NPU(Neural Processing Unit,神经处理单元)的AMD Ryzen AI PC能够部署模型,使开发者能在个人设备提供AI功能。

OLMo在16个节点上使用1.3兆token进行预训练,每个节点配备4个AMD Instinct MI250 GPU(总共64个处理器),以三阶段完成OLMo训练。

AMD OLMo训练三阶段。(Source:AMD)

AMD测试下,OLMo在一般推理能力和多任务理解的基准测试中,与类似大小的开源模型(如TinyLlama-1.1B、MobiLLaMA-1B、OpenELM-1_1B等)相比,表现出令人印象深刻的性能。

针对一般推理能力和多任务理解的基准测试结果。(Source:AMD)

两阶段SFT(Supervised Fine-tuning)模型的准确性显著提升,MMLU分数提高5.09%,GSM8k分数提高15.32%,显示AMD训练方法带来的影响。最终AMD OLMo 1B SFT DPO模型在基准测试平均优于其他开源模型至少2.60%。

谈到OLMo在对话基准上的指令调整结果,特别是将OLMo 1B SFT和OLMo 1B SFT DPO模型与其他指令调整模型进行比较,在AlpacaEval 2胜率中OLMo表现优于竞争对手3.41%,AlpacaEval 2 LC胜率则优于2.29%。此外,在衡量多回合对话功能的MT-Bench测试,OLMo 1B SFT DPO比最接近的竞争对手多0.97%的性能提升。

预训练和微调模型的能力有助于集成特定领域知识,随着客户对定制化AI解决方案的需求持续增加,预训练模型的能力为产业创新和产品差异化带来更多机会。而OLMo新模型的推出,有助于提升AMD在AI产业地位。

(首图来源:AMD)

0 阅读:0

逢纪说科技

简介:感谢大家的关注