PCIe4.0天花板榨干接口性能--长江存储PE321企业级SSD测试

数据与科技挺配 2024-12-26 14:30:56

近期长江存储推出了自有品牌的第二款NVMe企业级SSD——YMTC PE321,将PCIe 4.0平台上的性能推到了新的高度。其标称的顺序读写性能已经达到7.4GB/s和7GB/s,随机读达到175万IOPS,功耗约19W。考虑到PCIe 4.0平台具有旺盛的生命力,我们也乐见PCIe 4.0 SSD得以不断优化,不论是从性能还是成本角度。

回顾长江存储的首款NVMe企业级SSD,是2022年推出的PE310,性能达到了当时的主流水准,顺序读写分别为6.2GB/s和4.5GB/s,随机读达到100万IOPS,功耗不到14W。

时隔两年的PE321在官网的宣传当中提及介质为基于晶栈2.0技术的第三代3D NAND。介质的迭代对性能方面的提升影响很大,读写性能都有明显提升,尤其是写入性能方面,PE321的规格显得尤为突出。

成熟设计,兼容主流

长江存储PE321采用目前最为主流的U.2外形规格。壳体散热良好,正反面均利用盘体厚度设置了散热鳍片;盘体两端还设置了镂空,让盘体内部也成为服务器前后窗方向风道的一部分,更有利于PCB及元器件的散热。

金属壳体内侧有多个凸起,对应主控、NAND、DRAM,以及包括电感、降压、稳压在内的主要功率元件。

这款PE321标称容量6.4TB,PCB双面各布置了8颗长江存储NAND芯片和5颗DRAM,每颗NAND 512GB,每颗DRAM 1GB。

四角测试:PCI4.0天花板

H3C UniServer R4900 G6 Ultra是基于英特尔Eagle Stream平台的2U两路机架式服务器,可适配英特尔第四代、第五代至强可扩展处理器。

该服务器可广泛应用于通用计算场景,同时对高性能计算、人工智能、云桌面等场景重点优化,适用于互联网、运营商、企业,政府等各行业典型应用,具有计算性能高、存储容量大、功耗低、扩展性强和可靠性高等特点,易于管理和部署。

以存储扩展为例,H3C UniServer R4900 G6 Ultra提供了尤为丰富的选配规格。前窗可选8盘位/12盘位3.5英寸SATA/SAS/UniBay,或25盘位2.5英寸SATA/SAS/UniBay,16/32盘位E1.S,也可以灵活组合8盘位2.5英寸SATA/SAS/UniBay、8/12盘位E3.S。

此外,服务器还可中置4个3.5英寸或8个2.5英寸盘位,后窗也可以适配2.5英寸、3.5英寸、E3.S等多种规格。组合下来,可以支持多达20块3.5英寸盘或45块2.5英寸盘,E1.S或E3.S也有机会达到40个之多,将扩展能力强这一特色发挥的淋漓尽致。

我们以H3C UniServer R4900 G6 Ultra服务器为基础构建了长江存储PE321的测试平台。该平台前窗选配了8盘位2.5英寸UniBay和12盘位E3.S的组合。长江存储PE321适用于2.5英寸UniBay(NVMe)。该服务器其他与性能测试相关的具体配置为:

处理器:双路英特尔至强白金8562Y处理器(2.80GHz/60MB L3/32C/64T/250W)内存:16×32GB 1R×4 DDR5 5600系统:CentOS Stream release 9(内核6.11.3-1.el9.elrepo.x86_64)

在读取PCIe设备状态时,我们发现长江存储PC321 DecCap项下MaxPayload Size为512bytes。一般电脑/服务器的MPS默认设置为128或256bytes。在调整测试平台设置后,PCIe DevCtrl的Max Payload Size=512bytes、MaxRadReq=4096bytes。这个状态能够发挥PE321的最大性能。

在优化设置后,长江存储PE321 6.4TB在FIO v3.35测试当中可以达到7.46GB/s的顺序读和7.36GB/s的顺序写,均是PCIe 4.0接口天花板的表现。在之前的测试中,我们从未遇到如此高,且如此接近读峰值的顺序写性能。

在过往经验当中,SSD的顺序写入性能通常明显低于读性能,PE321的写入性能远远超出了PCIe 4.0时代SSD的主流水平(早期4GB/s左右,中后期5~6GB/s),甚至超出一些早期的PCIe 5.0 SSD。我们很期待长江存储的第三代NAND搭配PCIe 5.0控制器的表现。

PE321在512队列下的4KB随机读达到177万IOPS,对应的是7259MB/s——随机读性能也到顶,瓶颈在于接口。

PE321的随机写相当出色,达到68.9万IOPS,足以匹敌PCIe 5.0企业级SSD。必须强调的是,6.4TB容量点意味着这款SSD的定位是写密集,或称为读写混合型、中等耐用度,因此,我们在比较随机写性能的时候,选择的肯定是耐用等级同为3DWPD的型号。目前随机写参数能够超过PE321的企业级SSD确实屈指可数。

混合读写:非常淡定

在7:3混合读写测试中,PE321的随机读写总IOPS超过百万(74.7万读、32万写),平均读时延在达到128队列时才超过200微秒。由于之前随机写的测试表现良好,混合读写的吞吐能力符合预期。

综合P99到P99.99时延的表现,PE321在队列深度为32及以下时都非常轻松,队列达到64后时延开始有较明显的增加,但下限还不错。

以P99时延为例,当队列深度达到128时才会超过1毫秒,队列深度达到512时也不超过2毫秒。P99.99时延方面,PE321的表现也很稳定,即使队列深度达到512时也只是2.6毫秒而已。

回顾我们曾经测试过的PCIe 4.0 SSD,部分型号可能四角性能不错,甚至混合读写的平均时延也不错,但P99.99会出现数毫秒甚至超过10毫秒的时延,这样的SSD有可能在集群中带来性能抖动。从我们的混合读写测试看,PE321在极大压力下,依旧能够具备良好的响应,得益于其定位使然拥有较大的OP空间,另一方面也说明NAND介质性能优异,以及固件打磨成熟。

Aerospike:300x稳稳完成

Aerospike是一个典型的分布式数据库应用,其ACT(Aerospike Certification Tool:Aerospike认证工具 )测试中采用2:1的混合读写配置,负荷采用倍数形式体现。其中1x代表2000个读事务请求和1000个写入。每个操作以1.5KB对象为单位,对于没有整形/压缩的SSD而言,相当于一次默认页面大小的随机访问。通过验证的标准是时延大于1ms的请求在5.0%之内,大于8毫秒的在1.0%之内,大于64毫秒的在0.1%以内。

在ACT v6.5中,压力设置为300倍,TPS(Trans/sec)达到90万,长江存储PE321 6.4TB可以顺利完成持续24小时的测试。响应时间大于1毫秒的请求平均为3.03%,最大为3.58%。大于2毫秒的请求为0.1%,没有大于4毫秒的请求。

从24小时记录文件看,PE321的读写非常稳定,只有少量较有规律的离散点。大多数离散点的间隔约1400秒左右。

结语

根据市场预测,PCIe 4.0和U.2形态SSD的生命周期很长,在未来几年依旧占据主流。毕竟对于多数应用,PCIe 4.0 SSD已经可以提供足够的性能,且硬件成本更优。从系统角度看,以超融合为代表的企业应用部署的通用服务器大量采用Whitley平台,兼容性好,核数足够,DDR4内存便宜。另外,国产平台也以DDR4、PCIe 4.0为主流。

长江存储为主流平台提供了一款“登峰造极”的SSD,将PCIe 4.0 SSD的性能打磨至极致,写性能尤其突出,带动平台整体的存储吞吐负载水平取得质的提升,也进一步提升了整体解决方案的性价比和生命周期。这其中,长江存储第三代3D NAND的性能功不可没,也体现了晶栈Xtacking架构的优势——可以快速迭代,较短时间内实现了部分关键指标的超越。

1 阅读:94

数据与科技挺配

简介:感谢大家的关注