AI时代算力汹涌英特尔携手阿里云筑基智算未来

中关村在线 2024-09-24 07:30:40

上世纪60年代,计算机科学家们面临着单个计算机计算能力不足的挑战,为了解决这一问题,他们提出了将多台计算机连接在一起的“资源共享”概念,但受制于技术和网络条件,这一概念并未得到实际应用,一直到本世纪初,“公有云”的出现让更多的企业和个人都有了使用计算资源的机会,这也极大推动了IT行业的发展。

作为国内云计算产业的开创者与领导者,阿里云走过的15年和云计算产业的发展历程高度重合,如今在新一轮AI浪潮的推动之下,阿里云也迎来了新一轮的增长机会。在近日举行的云栖大会上,阿里云就宣布,将围绕AI时代的新需求,全面升级从服务器到计算、存储、网络、数据处理、模型训练和推理平台的技术架构体系,让数据中心成为一台超级计算机,为每个AI应用提供高性能、高效的算力服务。

但对阿里云乃至整个云计算产业来说,在AI愈发火热的当下,健康且可持续的发展势必离不开产业上下游的生态协同,英特尔作为云计算的重要参与者和关键推动者,携手阿里云在异构计算、媒体处理、生命科学等诸多领域进行了深化合作和加速创新。

正如英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉所言,“AI算力的发展驱动着下一代数据中心的演进。英特尔始终致力于以创新技术推动产业变革,对此,我们基于开放、可扩展的软硬件平台,打造了覆盖云、边、端的计算解决方案,并携手阿里云助力AI应用在全场景的落地,加速推动千行百业的数智化进程。”

具体来说,在底层算力层面,英特尔至强处理器如今已成为AI时代重要的底层基础设施。尤其是在部分对实时性要求不高的AI场景或者需要大量逻辑处理的AI场景中,具备更高时钟频率和强大指令处理计算能力的至强CPU表现往往要比GPU表现更好,以阿里云早些时候推出的第八代企业级通用计算实例ECS g8i为例,其在处理超大规模的LLM方面展示了以CPU为中心的计算体系在加速AI推理方面的巨大潜力。

而已经于6月份发布的至强6能效核处理器(6700E)和即将发布的至强6性能核处理器(6900P),则让阿里云这样拥有大规模现代化数据中心的云服务提供商在AI时代拥有了更多选择。

当然,即便至强6处理器被划分为了能效核和性能核两个系列,但在架构设计和软件层面,两个系列的产品实际上是共享同一个底层平台的,因此在部署时也无需额外的成本。两者主要依据应用场景进行划分:至强6能效核处理器更加适用于微服务、云原生负载或者简单的数据库处理;而至强6性能核处理器则更加适用大数据、AI推理以及游戏这样的计算密集型和AI工作负载。

其中,即将发布的至强6性能核处理器在AI性能方面具备13B规模的推理性能,相比第四代至强处理器相比有了显著的性能提升;核心数量也得到了进一步增强,最多可达128个,同时在内存方面也实现了对MCRDIMM的支持,使得其内存速率可以飙升到8800MT/s,性能方面的极大提升使得至强6性能核处理器在包括生成式AI、深度学习、机器学习、推理训练等AI领域都有着良好的表现。

针对科学计算领域,至强6性能核内置的AMX加速器和AVX-512指令集可以有效提升AI科学计算融合工作负载的性能,特别是AMX加速器在此前支持BF16和int8数据类型的基础上,引入了FP16的数据精度,这也为AI推理和训练提供了更多精度上的选择。

而已经发布的至强6能效核处理器则在节省能耗方面拥有巨大优势,云栖大会上,英特尔技术专家介绍,至强6能效核处理器的功耗会随着负载线性增加,在工作负载40-60%的区间即可节省280W的能耗,从而降低数据中心的散热开销,并基于负载情况精准预测功耗、提升上架率。

在异构计算方面,至强6作为英特尔首代支持CXL 2.0规范的处理器,不但极大地提高了内存利用率,也为未来内存扩展和内存池化奠定了基础。根据英特尔技术专家的介绍,CXL 2.0在至强6平台上拥有多种用法:首先是将CXL内存和DDR内存交织在一起以扩大内存容量,从而在支持并发访问的同时也提高了峰值带宽,同时从软件角度出发,软件也无需关心写入的内存在哪里,不过这种方式也会加大内存延迟,因此更适用于对带宽和延迟抖动不敏感的业务;第二种方式则是把CXL内存和DDR内存一起呈现给OS,这样可以保证内存不会被浪费,在OS里所见的容量即为所有内存的叠加;最后一种方式则是把CXL内存和DDR内存在OS中分开呈现,但这种方式需要软件支持。

基于至强6性能核强大的性能优势,阿里云也在云栖大会期间预告了搭载英特尔至强6性能核处理器的ECS第九代企业级计算实例组合,在性能、灵活弹性、稳定、安全方面实现了全面提升。具体来说,在I/O能力方面,第九代实例的网络连接数提升了2倍,整机IOPS提升了20%,云盘密度实现了翻倍,安全稳定性方面则支持TDX机密虚拟机,且硬件采用双单路设计,在提升整机密度的同时有效降低了故障域半径,十分适用于数据库、传统AI推荐、通用企业应用web、java等场景,相比上一代产品性能平均提升了15%以上。

除了性能提升外,在资源灵活性方面,第九代实例还支持全新弹性临时盘,与本地盘实例相比,可以灵活配比高性能算力与高吞吐存储,在数据分析、分布式缓存等场景中可以获得超过30%的性价比。同时第九代实例也大幅提升了磁盘网卡密度,单VM最大可支持192云盘,从而在容器云原生场景下最大化地提升使用效率。

此外,阿里云也基于多年来和英特尔的深度合作,通过基于至强CPU的原生硬件加速器,帮助客户以超高性价比的方式实现场景化的能力增强:例如在AI推荐、大模型数据清洗等环节,通过AMX加速器高效执行矩阵运算,从而提高计算效率;以及在数据库压缩解压缩或视频压缩解压缩场景,通过QAT加速器执行数据加解密、压缩、解压缩等操作,从而大幅降低处理器的内核负载。

在英特尔的助力之下,阿里云还针对存储领域打造了磐久高性能存储服务器解决方案,不仅能通过英特尔QAT/DSA等加速引擎优化服务器访存时延,提升产品整体服务能力,同时也具备超高的性价比,为更多企业带来成本上的优势。

最后,围绕包括媒体处理和生命科学在内的诸多垂直领域,阿里云也和英特尔展开了深度合作,并达成了诸多实践成果,其中在媒体处理领域,搭载第五代英特尔至强可扩展处理器的个性化解决方案,可帮助阿里云视频云AI产品实现在画质修复、一键生成和视频搜索等工作负载上的大幅优化与升级;而在生命科学领域,阿里云则携手英特尔优化了多个面向不同场景的AI大模型,从而帮助加速药物的研发、生产以及销售的全流程。

随着AI技术的不断成熟和应用场景的日益丰富,AI算力需求将持续增长。长久来看,AI对云计算的赋能才仅仅展示出冰山一角,在过去,云计算更多是以功能为中心,而在未来的AI时代,云计算有望深入场景,基于大模型的能力解决更多问题。从本次云栖大会中不难看出,英特尔正在凭借其在AI算力领域的深厚积累和领先优势,携手阿里云这样的云服务提供商持续聚合云上生态,加速更多行业创新和应用落地,为智能未来添砖加瓦。

(9024776)

0 阅读:7