12月26日,市场消息称小米正在积极搭建自己的GPU万卡集群,以加大对AI大模型的投入。传言指出,小米大模型团队在成立时已拥有6500张GPU资源。观察者网就此事联系小米方面,但截至发稿,对方尚未置评。
小米加速发力AI 大模型当前,AI已成为手机厂商和科技公司竞相布局的重点领域,而算力集群则是训练大模型的关键基础设施。上个月,在世界互联网大会乌镇峰会上,小米集团董事长雷军曾表示,自2016年起小米就全面投入AI领域。他透露,小米的智能语音助理小爱同学月活跃量已达1.2亿台,AI技术已广泛应用于小米的各个业务板块。
去年4月,小米宣布组建AI实验室大模型团队,相关研发人员超过1200人。时任小米集团中国区总裁卢伟冰强调,小米将积极拥抱大模型技术,但不会像OpenAI那样去做通用大模型,而是寻求大模型与自身业务的深度协同,例如与小爱同学、MIUI、机器人等业务相结合。
关于AI大模型,小米集团副总裁、首席财务官林世伟当时透露,“已经把业内大模型团队都过了一遍”,小米会采用惯用的“打法”,也就是战略投资等方式,来实现AI大模型方面的生态合作。
大模型训练用千卡集群搭建需要关注的重点可以看到,国产千卡集群已经取得实质性突破,在性能上能够达到国际先进水平,在应用上,已经有多个大模型实训案例。同时,国产企业也在积极构建和完善生态系统。
事实上,用于大模型训练的千卡集群的搭建并不容易,需要注意多方面的事情。如基础设施搭建方面,首先要考虑硬件的选择,需要选择高性能的GPU或TPU作为核心计算单元,才能够提供必要的计算能力和加速训练过程。其次是网络互联,构建能够支持万卡级别高速互联的智算集群,才能确保各个计算单元之间的数据传输效率和稳定性。还有分布式存储,需要配置分布式存储系统,满足大模型训练过程中大规模数据的存储和访问需求。
除了GPU的选择,网络互联也是千卡集群建设需要关注的重点。大模型训练千卡集群互联要求高,这样能够确保集群的高效、稳定和可靠运行。
具体来看,首先需要高带宽与与低时延,大规模GPU集群中,模型训练对卡间互联的带宽和时延提出更高要求,特别是在万亿参数量模型中,网络节点可能由百卡组建的“超节点”构成,单次通信数据量虽小但通信频繁,因此需要高带宽支持以实现快速数据传输。低时延同样重要,因为在大模型训练中,任何延迟都可能影响训练效率。
其次需要高效互联拓扑,随着智算中心向千卡万卡级别的全互联方向演进,传统的直连拓扑结构不再适用。集群需要采用更高效、更先进的互联拓扑结构,如全向智感互联(OISA)设计方案,以突破大规模卡间互联的技术瓶颈。
再者还需要支持大规模扩展,千卡集群的互联方案需要支持从单机多卡到多机多卡、从单卡到千卡集群的无缝扩展。这要求互联方案具有良好的可扩展性,能够随着集群规模的增长而灵活调整。
免责声明:
1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。
2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。
3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。