火热的大模型AIGC对数据中心存储趋势有何影响?

玩数据还有点懒 2024-07-26 02:30:49

随着人工智能和大数据技术的不断发展,业内AIGC(人工智能、图形处理和云计算)和大模型的发展趋势正在对数据中心存储发展方向产生深远的影响,主要集中对数据量和高性能计算的诉求。

数据中心大干快上,就等GPU了

过去一年,中国数据中心产业开启了一场算力进化的新征程,国家政策点明了方向。2023年10月份,工信部六部委印发《算力基础设施高质量行动计划》,首次提出了算力中心相关的概念和发展要求,将通用数据中心、智算中心、超算中心都纳入了算力基础设施的内涵。

其中明确到2025年,算力规模要超过300EFLOPS,智能算力占比达到35%以上,重点行业的核心数据、重要数据的灾备覆盖率要达到百分之百,每个重点领域要打造30个应用标杆等。

与此同时,数据中心全面智算化,截至2023年上半年,全国在用的数据中心总规模超过760万标准机架,算力总规模达到了197EFLOPS,已经位居全球第二。新增的算力设施中,智能算力的占比超过了50%,成为了增长的新热点。

据数据,2023年1月份到12月份初,全国立项规划建设的智算中心的项目数量达到118个,其中规划算力大于1000P的项目16个,大于500P以上的26个,大于100P以上的项目56个。

而对于大部分数据中心服务商来说,今年的主旋律就是一边大干快上新建智算中心,一边等AI算力卡,更准确地说,是主要依赖GPU供应市场份额90%的英伟达,否则只能选择性能和产能不足的其他供应商。

数据中心服务的核心是服务器,其架构设计也是围绕服务器,当服务器发生任何一种变化,数据中心就要相应做出调整,结合客户预算和需求做兼容或创新的改变。大模型火爆之前,纯GPU服务器的数据中心很少,充其量就是大规模数据中心有少数几个GPU服务器机房,而且由于GPU的成本高昂,只有大型互联网等企业才有相应储备。

大模型如何改变数据中心

为了满足大模型的训练需求,智算中心有几大明显的变化,首先是服务器和机柜功率显著提高,传统x86架构的通用计算服务器,标准形态是2U2节点或4节点,一台服务器功率600W—900W,四十多U的机柜空间里插12—15台服务器,其余部分是交换机、电源等模块。到了智算时代,一台GPU服务器八张GPU卡加两个CPU,至少10千瓦、12千瓦起步。

以前一台服务器里既有CPU,又有内存和硬盘,今天的GPU服务器更像一种纯算力的堆叠,在一定规模下,大模型训练效率随着GPU数量增加而提高,前提是网络时延足够低。

智算中心的第二大变化,便是短距离传输,降低网络时延。韩玉表示,通用服务器架构设计需要算力经网卡互联造成转换速率较慢,英伟达实现了CPU直连GPU的直接通信的架构设计,算力效率数量级提升,更高功率、更短距离、更低时延、更可靠的GPU互联,是大模型训练的基础。

“今天的智算业务集群里,网络成本超过20%,短距离高可靠性的低延时,是大家愿意投入去创新优化的环节,因为足够有性价比。”他说。

第三,目前智算中心还未完全定型,架构设计要具备高度兼容性。合盈数据CTO 周天宇提到,芯片、功率密度、风液混合,三者均存在变数,一个数据中心 的寿命如果以20年计,基础设施如何应对由于芯片,不同制冷方式带来的散热挑战,也是行业面临的共性问题。

免责声明:

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。

2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。

0 阅读:0

玩数据还有点懒

简介:感谢大家的关注