最近,The Information又说英伟达下一代Blackwell 芯片会有散热问题,存在严重过热现象,过热导致部署推迟。The Information的话就这么一说,大家就这么一听,毕竟这家公司经常这样说,来配合资本市场。
事实是,随着AI的高速发展,单颗AI芯片功率达到1000W,现有散热技术几乎无法支撑。
温度降不下来,计算就进行不下去!!!
(一)AI芯片:数量、功率双暴涨随着摩尔定律发展,晶体管数量迅速增多,AI芯片功耗提升,英伟达GB200的晶体管数量是2080亿个。B200 GPU的晶体管数量是前代H100的2倍多。
随着AI的迅速发展,AI服务器出货量在暴涨,年均增10%,主要是英伟达 H100、A100、 A800。
AI带来的数据量和计算量爆发式增长,数据中心正加速向高密度演进,也就是提高机房单位面积内的算力、存储以及传输能力。全球IDC单机架平均功率为8.4kW,比3年前的5.6kW提高了50%。
未来3年,普通机架功率将达到12-15KW,超算中心、智算中心机架功率将达到30kW。英伟达Blackwell GPU机架集成了 72 个 AI 芯片,机架功耗高达120kW。
戴尔已经拿到了英伟达GB200
RTX 4080 的游戏功耗
(二)风冷已达上限当下电脑、服务器主流的散热方式就是风扇散热,也就是风冷。
在风冷系统中,芯片的散热与风扇转速紧密相关:
当风扇转速从1000r/min提升至4000r/min时,对流成为散热过程中的主导因素。随着流速的增加,对流换热系数显著提升,这一转速范围内风冷能有效增强芯片的散热。当风机转速超过4000r/min后,传热热阻的下降趋势变得平缓。此时,即使转速继续增加,也主要只能改善空气与冷却介质之间的导热传热,而整体的散热效果提升不再显著。高深的公式,看不懂
(三)液冷来了风冷已经无法解决AI芯片的散热了,同为流体的液体就成了散热的目标。在同样单位体积下,液体吸收的热量远比空气高。因此液体能更高效地散热
液冷技术的工作原理可以简单概括为:冷却介质(如水、乙二醇溶液或其他特殊的冷却剂)通过散热器与设备接触,吸收设备产生的热量,并通过循环系统将热量带走。液冷系统通常由冷却介质、散热器、泵以及管道组成。
液冷技术可以根据冷却液与发热器件的接触方式不同,分为间接液冷和直接液冷两大类。
间接液冷:服务器热源与冷却液之间没有直接接触的换热过程,以冷板式液冷技术为主,需要在GPU/CPU上安装液冷板,热量从GPU/CPU传递给液冷板,液冷板传递给液体。直接液冷:将发热部件与冷却液直接接触的冷却方式,包括浸没式和喷淋式液冷技术。浸没式液冷直接浸泡在绝缘、化学惰性的冷却液中,喷淋式液冷则是将冷却液喷洒于电子设备器件进行散热。液冷逐步成为主流,主要2大优点:
液体能带走更多的热量,散热效率更高,风扇散热已经达到极限了;IDC成本中,冷却占比在 20- 25%,高散热就是节约钱;英伟达和IDC运营商曾做过统计,采用液冷技术的IDC 工作负载相同时,液冷消耗的能源减少了约 30%。按照英伟达的估计,液冷IDC的PUE可能达到1.15,远低于风冷的1.6。
在AI之战中,冷却很重要,温度降不下来,计算就进行不下去!!!