如今,全球气候异常现象持续加剧,自然灾害屡见不鲜,台风成灾、洪水百年不遇......人类生存面临严峻挑战。与此同时,中国气象局迎来一个个阶段性成果落地:北半球可用预报天数突破8天,全球预报空间分辨率从25公里提升到12.5公里;我国成为国际上为数不多的自主研发全球四维变分同化系统的国家之一......极端天气层出不穷不假,同样不可忽略的,我国气象预警实力也在一次次“保卫战”中被锻造得更加坚韧有力,这其中少不了气象大模型的普及应用及算力的支持。
目前,国内外不少科技厂商纷纷布局算力基础设施建设并积累了丰富的经验,作为国产算力的主力军,海光DCU凭借良好的性能、兼容适配性、扩容性及价格优势,频繁中标气象项目,搭配国产大模型,二者成为气候技术的关键平台,有效提高了气象预警数值预报精度和时效性。如今,海光DCU已成为国内气象算力采购的炙热之选。
气象预测对算力芯片的高要求
时效性及高效性
众所周知,气象领域需要处理来自卫星、雷达、地面观测站等多种来源的海量数据,这些数据量通常以PB级存在,且需要实时处理和分析。因此,时效性和高效性是跑赢气象天气的首要条件,这就要求算力芯片具备强大的数据处理能力和并行计算能力,以确保在短时间内完成复杂的数据处理及计算任务并实现高速传输。
全精度计算支持能力
气象预测涉及计算逻辑复杂的物理模型,大气动力学、热力学和流体力学通通囊括在内,底层芯片的算力精度很大程度上决定了预测结果的精确度。另一方面,目前AI模型通常采用混合精度计算,在训练过程中使用较低精度(如半精度)进行加速计算,而在推理过程中则需要使用较高精度(如单精度)用以提高精确度。
如此一来,算力芯片须具备全精度计算能力,才能在确保计算结果准确性的同时灵活切换不同精度,平衡计算速度和精度。
灵活扩容及维稳
由于气象预测面临海量数据和复杂模型的挑战,需要在不同应用场景中动态调整计算资源以应对不同规模的计算需求,这就要求算力芯片支持灵活的硬件扩容能力。此外,在运行过程中根据场景区别调整功耗是确保大规模算力集群稳定、高效运行的关键。
全能DCU拿捏气象多元算力
作为国内唯一覆盖全精度计算的AI加速卡,海光DCU具备强大的的通用计算性能,擅长高效处理高复杂和吞吐量高的数据处理任务,在服务器集群和数据中心得到大量部署。DCU采用“类CUDA”通用并行计算架构,支持全精度浮点数据和各种常见整型数据计算,能够满足气象预测中对精度计算的要求。它具有最多 64 个计算单元,充分发挥了大规模并行计算的优势,并为应用提供性能高、能效比高的算力支持。这种强大的计算能力最大程度上确保了气象模型在训练和推理过程中的高效性、准确性、实时性。
然而算力强劲并不意味着能够完全适配。海光DCU能够在气象大模型中被广泛接受和快速落地,主要在于它的生态适配性优势。海光DCU采用国际主流的GPGPU路线,完全兼容“CUDA”和“ROCm”等主流计算生态,场景支撑能力极强,高度适配TensorFlow、Pytorch、PaddlePaddle这些主流深度框架和应用软件。尤其打造出自主开放的完整软件栈,包括“DTK(DCU Toolkit)”、开发工具链、模型仓库等,确保了从数据预处理到模型训练和推理的全流程支持。这种广泛的生态兼容性一方面简化了开发和优化过程,减少适配损耗;一方面方便现有生态软件快速适配,提高气象预测大模型的开发效率。
面对庞大的数据和复杂的计算逻辑,硬件需具备高度灵活的扩容性以满足不同场景规模的计算需求。依托开放式生态,海光DCU构建了拥有完善层次化软件栈的统一底层硬件驱动平台,能够适配不同API接口和编译器,并支持常见的函数库、AI算法与框架等。硬件层面,DCU支持多种卡互联方式,可以在算力集群中实现高效的GPU互联,提高整体的计算性能和扩展性。如此一来,用户可以根据实际应用场景和性能需求,灵活地增减数量,确保计算资源的高效利用。同时,DCU通过根据实际负载情况自动调整功耗,进一步提高能效比,确保算力集群的稳定运行。
在用户最为关注的价格上,得益于在芯片研发和制造方面的深厚积累,以及国产化的成本优势,海光DCU具备更高性价比。当前的昇腾910B等同类产品,虽然其在某些特定任务中表现出色,但由于高昂的购置成本和运维费用,无疑限制了其在中小型企业中的发展程度。海光DCU在保证高性能的同时,以其灵活的服务模式及更低的价格成本,降低部署成本和复杂度,更促进了AI技术在气象领域的大规模普及与应用。
凭借全精度算力,性能强悍、生态完善、灵活扩容等优势,海光DCU无疑为我国计算技术的进步注入了一剂强心针。随着AI技术的持续演进,海光DCU有望在算力集群趋势中带来更加高效、灵活且经济的计算体验。