过去一年多,人工智能(AI)浪潮席卷全球,主要的科技公司都在大举投资数据中心GPU,而且数据中心用的GPU往往一张价格都一两百万起,这使得市场上最大的NVIDIA股票不断上涨。
不过,虽然高性能的数据中心GPU定价很高,但是使用寿命却不太长,这是由于平常承受着AI推理训练的繁重工作负载,往往会比其他组件老化得更快。
据报道,最近有报告称,云计算服务提供商(CSP)运营的数据中心内,这些GPU在AI工作负载中的利用率约为60%至70%。按照这个利用率,GPU通常只能使用1到2年,即便较为理想的状态,最多也就3年。
需要说明的是,现在用于AI和HPC应用的数据中心GPU功耗很高,可达到700W或以上,这对于芯片来说是一个很大的压力,一定程度上也减少了寿命。
如果想要延长数据中心GPU的使用寿命,其中一种方法是降低利用率,然而这也意味着其以更缓慢的速度贬值,并且需要更长的时间才能回本,这对于付出高昂成本的企业来说是不利的。因此大部分云计算服务提供商衡量了收益以后,最常见的做法仍然是以高利用率运行。
此外,报告还根据数据统计结果指出,数据中心GPU的年化故障率约为9%,3年后大概在27%,一般使用一年后更可能频繁地出现故障。