解密曙光拿下“全球存储奥斯卡奖”

胡说成理 2025-03-04 20:49:57

如果以1946年全球第一台通用计算机的发明为起点,电子计算机的存储史绵延至今已经有近80年时间。

由于早期的计算机非常的昂贵,主要供大型机构使用,所以计算机存储的发展史也可以说是先有企业级存储,而后才有个人存储。

在这近80年的历程中,中国企业级存储的发展可谓相当之晚,至今也不过区区二十年而已。

然而,仅仅20年,中国存储企业就创造了巨大的成绩。

其中,曙光存储更扮演了十分重要的角色。其不仅是中国第一家自研成功全栈分布式存储技术的企业,也在去年发布了全球首个亿级IOPS的全闪存储设备,更在今年登上了有“存储界的奥斯卡奖”之称的SPC-1榜单的全球榜首,创下了一个接一个的奇迹。

这种成绩的创造究竟是技术上的大力出奇迹,还是时代的风口所赋予?本文将为读者解开其中之谜。

——导语

01刷新世界记录

2月28日,当我走进曙光存储公司的会议室时,就能够感觉到已经聚在这里的曙光存储全闪产品总监卫然、测试架构师晁中元、存储架构师季旻等曙光存储人的脸上,都自然洋溢着一种快乐、自豪的气息。

这或许是因为,在刚刚发布的国际存储性能委员会(SPC)SPC-1V3基准测试中,中科曙光的全闪存解决方案FlashNexus以32控、惊人的3000万IOPS的超高性能,一举登顶全球榜单。

这次参与评测的32控解决方案,是去年曙光发布的全球首个亿级IOPS性能的集中式全闪存储FlashNexus系列中的一款,该系列具有百控级扩展能力。而选择打榜32控级榜单,原因是目前参与评测的方案中,32控级属于当下的高端主流产品。

让时光倒流到1999年,这是存储行业大发展的一年,老牌巨头和新锐力量正在进行激烈的绞杀。在这个特殊的历史背景下,一批主流存储企业为了确保供应商之间的竞争是公平且有序的,成立了世界上第一个以严格的行业标准性能基准作为评测标准的非盈利性组织,这就是SPC(国际存储性能委员会)。

它开创性的把存储子系统的能力评估基准与联网条件相结合,从而成为现代存储行业进入互联网时代后的最重要评估基准之一。

SPC组织本身的规模并不大,但拥有存储行业的非营利性组织中最长的会员名单,无论是国内的曙光存储、华为、浪潮、宏杉科技、中国电子云等,还是国际巨头Hitachi Vantara、Dell EMC、NetApp、IBM等均位列其中。

时至今日,SPC仍是业界最活跃、最有影响力,且评测标准极为苛刻的国际存储性能评测机构,它针对不同的业务场景发布了多种类型的评测基准,而其中最负盛名的莫过于SPC-1评测。

这一测试的挑战性,主要是由它独特的规则造就的——SPC-1更多的考虑是基于联网状态下,企业在处理各种企业事务如数据库、电子邮件系统等8个方面所体现的综合存储系统性能和性价比。更具体的说,打榜的存储系统,需要接受矩阵(metrics)的重复性(repeat)和耐久性(persistence)两大评测流程中复杂多变的混合负载压力模型的层层考验,其中最长的单次持续性测试长达12小时。

本次测试中,曙光的FlashNexus32控产品,实现了超 3000 万的 IOPS 性能和 0.202ms 的时延表现,在这里我们需要约略的进行一下解释。

‌IOPS指的是每秒输入输出操作次数,它是衡量存储设备性能的重要指标‌,用来表示存储系统在一秒钟内可以处理的读写操作数量。IOPS越高,设备检索或存储数据的速度越快,从而提升了整体性能和用户体验‌。

从另一个方面来看,任何复杂的存储系统都会因为网络设计、软件机制等问题面临时延的问题。只考虑IOPS而不谈及真实时延的性能是没有意义的,特别是在OLTP(联机事务处理)、高频交易、实时数据库等场景中,毫秒级的时延就会直接影响业务连续性,是一个至为关键的指标。

而曙光这次展现的低时延性能,如果放在真实业务环境中如金融交易中,其0.202ms的时延意味着单笔交易处理时间比目前缩短80%以上,这对金融等对实时性能有极致需求的行业堪称“致命的诱惑”。

打个比方就是,在一家超市的收款处有两位收银员,其中一位工作迅速敏捷,另一位则迟钝延宕。最后必然的结果是,前者会服务更多的用户而且也带来更好的体验,而后者的收银台前则会排起长队,甚至影响到整个超市的运转效率。

但曙光Flash Nexus除了保证了高IOPS和低时延外,还实现了另一个突出的指标,即高质价比。

事实上,高性能和高质价比,是一个尖锐问题的AB两面。通常来讲,性能越高的存储系统的时延就越低,但伴生的问题是成本相对就会较高。这里的成本不单指硬件,而是包含了从存储介质的性能、性质的选择到整个体系的优化水平等一系列复杂的问题造成的成本之和。

通常而言,集中式存储堪称存储领域的商务舱,而全闪存储则相当于头等舱。客户只要选择最尖端的全闪集中式存储,就意味着在一定程度上放弃对性价比的追求,而追求极致性能,这也是行业里默认的事实,也是为什么集中式存储的主要应用场景大多在金融、证券、保险、银行等‘财大气粗’的机构的选择中。

而曙光存储此次的突破在于,在高性能、低时延的同时,还做到了质价比位列第一,实现了每千 IOPS 成本 155.01 美元。

由于基于不同标准和规格的测试结果差异性很大,所以我只能约略的寻找一些对比数据,来进行粗糙的对比。

例如,在大约五年前,富士通ETERNUS DX8900 S4(24控级)曾经获得过一次SPC-1的榜首成绩,性能达到了1000万IOPS,但其千IOPS成本高达600美金以上。由于控制器数量不同(曙光此次打榜的是32控产品),两者很难直接对比。

但如果我们站在用户而非工程师的视角,从中就不难发现——对真实用户来说,曙光Flash Nexus32控产品在提供3000万IOPS性能的同时,千IOPS成本降到了5年前行业领先水平的四分之一;或者再换个角度来说,提供约1000万IOPS性能的成本,只是5年前行业顶尖水准的1/12,这不仅仅生动的诠释了曙光存储的巨大进步,也反映了如今存储市场的竞争仍在不断的加剧和加速中。

02最复杂的工程

在笔者长期跟踪存储行业的过程中,逐渐积累了一个认知,那就是存储子系统虽然往往不像CPU、操作系统那样,是公众关注的焦点,甚至某种程度上是一个“配角”。但其技术复杂性却不低于、甚至超过前者。我拜访过的清华大学高性能计算中心高级工程师张武生甚至指出,存储系统是整个计算机系统里技术难度最高的子系统之一。

另外,一般人容易产生的误解是存储性能主要由介质决定,如机械硬盘、固态硬盘、高速缓存等之间的IO性能相差就很大。这种误解的产生,主要是普通人使用存储往往从自身体验的角度出发,例如装配有SSD硬盘的电脑,在速度上必然大大超过装配了同配置但安装了机械硬盘的电脑。

但事实上在企业级存储市场里,某种介质成为主流后,产业寿命往往长达数十年甚至更久。但越到其产业生命周期的后期,硬件性能提升就越缓慢乃至停滞。在这种前提下,各种软件架构的创新和优化,以及软硬件之间的配合,就成为更加行之有效的性能提升路径。

但存储文件系统软件的算法和机制的设计,又必须建立在对于硬件运行的底层逻辑的深刻洞察之上。所以,FlashNexus这样的现代高端存储系统的设计和创新,是典型的软硬件结合的端到端工程,其复杂精微之处,除了业内人士之外很难理解。

因此,从某种程度来讲,要介绍FlashNexus全部的技术亮点,是区区一篇小文很难承载的,我只能择其要点来略加阐释。

首先,也是非常突出的优点是在性能方面,曙光的FlashNexus堪称极致,可谓“迅若闪电”。而事实上,这次参与打榜的产品还不是整个产品序列里规格、性能最高的,选择32控的理由前面已经讲过,是为了便于和大部分打榜的产品规格保持一致,以利于横向对比。而其百控级设备的IOPS突破1亿大关,领先全球。

而这种“迅若闪电”的性能,建立在一系列极为精细的设计上,其中涉及到非常复杂的系统平衡和微创新。

卫然向我讲解了现代高端存储的优化机理——在一般的理解中,计算机的存储运作是由CPU去发出指令,然后由存储介质的控制芯片去执行指令,进行各种如复制、删除、备份等数据操作。

但事实上,对于高度并行性的大型计算集群或算力中心而言,由于数据的海量性以及复杂的备份机制,已经吃掉了大量的计算机资源,从而使得“计算机”在某种程度上变成了“数据搬运机”(李国杰院士语),所以当代高性能存储的总体设计方向,就是尽可能让数据操作不去“惊动”CPU和操作系统;反之也需要限制系统访问存储器的次数,实现某种程度的“两不打扰”。

这两个方向看似相斥,其实是从不同的角度解决同一个问题,就是尽可能减少存储操作对系统资源的开销,从而提升系统资源的利用效率以及存储子系统的性能。

例如,NUMA(非一致性内存访问架构)就是一种常见的技术,对于SMP(对称多处理)架构优化,解决多CPU内存访问的非一致性问题。

“但传统的NUMA就对服务器的CPU的性能要求很高,而高性能CPU的成本是很高的,如英特尔的服务器级处理器就很昂贵”,卫然说:“这种情况下,厂商往往会采用多个NUMA或者多个CPU的方式,去提升存储的性能。然而,这又带来了新的问题,就是多个NUMA和多个CPU之间互相访问的资源消耗非常大,所以,对NUMA这一技术栈进行持续优化,就是我们的一个持续的创新方向。”

因此,在FlashNexus的设计中,开创性的提出了“微控模型”的概念,这种概念的整体理念,就是把每个软硬件操作对整体环境的影响范围控制到最小。

例如,在硬件设计上,就通过虚拟化的技术,让每个单元在逻辑上都有自己独立的、最近的硬件资源,从而提升访问的速度;而在软件逻辑层面,也让每个操作流程都有自己独立的“通道”,隔绝对其它资源的干扰。

如果打个比方的话,这就好比交通管制。传统做法可能是让某条道路在某个时间段内不能通行,但这样只要持续稍久,就会造成交通的拥堵。而更精细的做法则是划定不同的车道,让需要优先通行和需要正常通行的车在各自的通道里行进,再进行精细的管控。这样虽然也会在一定程度上降低流量,但已经把对通行能力的影响限制在一个较小的范围内。

而事实上“微控模型”的实践远比我的这个比喻要精细,比如在划分通道的时候,曙光存储在FlashNexus上就采取了多路径技术。

“也就是说,在一开始我们就决定好选择哪一个通道,也就是说你的数据、你的逻辑请求归属于哪一个微控制器,是事先划定好的。数据进入后,就会按这种划定快速、持续的落盘”,晁中元说:“这就让整个系统在一开始就预留好了通道,从而整个系统就具备了更好的可扩展性。比如我们需要增加新的CPU时,因为‘通道’已经规划好,多个CPU之间的耦合性、交互性相对来说会少很多,这样就避免了增加了CPU性能的同时,又带来了存储资源损耗的增加”。

除此之外,另一个大方向是“把协议做薄”。

数据的交互之间,需要通过各种技术和协议。比如RDMA技术(远程直接内存访问),就是为了解决网络传输中服务器端数据处理的延迟而产生的。它将数据直接从一台计算机的内存传输到另一台计算机,无需双方操作系统的介入。另一个重要的技术动态,则是当前支持NVMe(非易失性内存主机控制器接口规范)的设备越来越多。

“现代的协议已经比传统的TCP/IP协议、iSCSI协议等传统协议要薄很多”,晁中元说:“我们的努力就是把协议做的更薄,让性能损失更小”。

言而总之,FlashNexus的惊人性能,就是通过各种智能化的机制,减少CPU开销或者降低CPU负载,通过协议等方式直接处理数据的读取和传输。

当然,速度并不是一个高端存储系统的唯一性能指标,除了“迅如闪电”以外,能够“智若洞见”的“通过AI来感受业务的脉搏”也很重要。

何为智能存储?我们还是可以继续展开前面的关于交通管控的例子,“车道专用”显然比“道路限行”要先进,但这会带来另一个方面资源的浪费——大家可能会有印象,那就是大城市里的公交专用车道是有高峰时限的,但即使在高峰期,公交专用车道也经常跑不满,而普通车又不能在这一时段内使用这条通道,这就是一种浪费。

所以,真正意义上的“智能交通”,应该是可以动态调整的“潮汐车道”,它不是按规定的时间,而是根据实际的道路流量情况来调整通道的分配,甚至可以把3:3的车道动态分配调整成4:2乃至5:1。

而对于FlashNexus来说,在智能存储方面,实现了内置AI驱动的性能调度引擎。简言之,它可以实时的感知整个存储系统的负载繁忙程度,并根据用户预设的业务优先级,来动态的分配资源并进行实时调度,特别是对于一些关键的业务,可以设置为近乎独享资源的方式,而对一些非关键业务进行智能限流,从而做到让整个系统的资源物尽其用的被分配。

和最近大红大紫的DeepSeek一样,某种意义上来说,单纯堆硬件带来的效益提升是边际递减的,特别是这种性能伴随着成本的巨幅提升时就更如是。但类似于绕过CPU和操作系统、把协议优化做薄以及智能调度这种软件逻辑上、智能化上的升级,其天花板之高不能说无穷无尽,但总有潜力可挖。

当然,对于主打大型机构的核心业务场景的存储系统来说,和性能同样重要的就是稳定性和数据安全,而FlashNexus在这方面可以说“安如磐石”。

某种意义上,通过SPC-1测试就是稳定性和安全性的最好背书,因为在这个复杂的测试中,既包括以100%的压力(相当于按汽车的最高设计速度)跑满至少8个小时,以检测最高性能的可持续性;也包括以10%到100%的压力,按不同梯度反复上升下降,以检测系统的稳定性和低时延性能的保持性。

更为重要的是,测试还会对所有的控制器和主机全部断电,进而检验断电恢复后数据的一致性,可以说一切测试都贴近于真实应用场景,以全面的考验存储系统的综合性能。

“事实上,我们对安全性的冗余设计远超于测试要求,因为我们的安全设计是从微观到宏观递进的,近乎完美”,卫然说:“在微观部件层面,我们搭载了业界独创的RAIDQC技术,可以在一个存储池内可以做到四块盘同时故障而数据不丢、应用不断;在宏观的解决方案层面,我们可以支持从2个城市的对称式备份到多地、多中心的多重容灾备份,可靠性达到7个9,也是行业最高标准”。

在接近2个小时的庖丁解牛式的技术分享中,我深深的感觉到,曙光存储在FlashNexus的设计上并非是针对系统测试而进行的“做题式设计”,而是远比测试所模拟的几个、几十个小时中所体现的性能,要更接近于实际的用户需求,也更贴近行业发展进步的方向。这才是这套系统能够轻松登上榜首的原因,也从某种程度上更深层次的反映了中国存储行业的进步。

03从存储到存力,中国式创新大有可为

翻阅SPC官网上的榜单,一个最深刻的印象就是——差不多以2020年为界限,越接近当前,中国企业的上榜数量就越多,成绩也越好。其中,不仅有华为和曙光存储这两家国内唯二的掌握了从分布式到集中式的全栈自研技术的两个标志性企业,还有浪潮这样的老牌服务器巨头和一些新创企业,从总体上来讲,它反映了中国存储产业的繁荣。

事实上,中国存储行业正在迎来一个最好的时代。

首先,很多行业都有正周期和逆周期,正周期一般反应为需求上升、性能提升和行业盈利水平提升,逆周期则与前者相反。

从整个社会环境看来,存储行业正在迎来一个强大的正周期。事实上,无论是“新质生产力”这种宏观层面的牵引,还是AI大发展、数据大爆炸这样具体的产业风口,都前所未有的对存储的质和量提出了更高的需求。

从量的方面而言,随着AI、数字孪生、数字金融等逐步走入深水区,目前全球已经开始了新一次数据大爆炸——根据IDC的数据,当下全球每年会产生150ZB的数据(ZB即泽字节,表示10的21次方),而中国独占其中的四分之一,是全球每年创造、采集、复制数据量最大的国家之一,且这一趋势在未来的CAGR将保持在25%左右并持续相当长时间,这对存储行业是一个强大的利好。

而从质的方面来讲,需求的多元化,正倒逼企业进行多元化的创新和实质性的进步。

例如,从技术栈扩展的角度,FlashNexus的全球领先,意味着从分布式存储起家的曙光存储开始进入殿堂级的顶尖集中式存储市场;从绿色节能的角度,曙光的存储系统已经做到了“按核控频”的极细颗粒度;从全闪式大普及和合理化存算比的角度,中国的存储市场还有非常大的存量设备需要代际升级,也有很高的需求天花板有待更强、更好的存储系统去加以满足。

其次,由于数据已经成为当前经济发展中的一级要素,存储系统的市场发展也体现了某种地缘性。这体现在,我们既要通过自主技术创新来满足国内市场的复杂需求,又要与世界主流技术同步前进甚至差异化领先和换道超车。

曙光这次的打榜就很有典型性,从标准与评测机构而言,参与国际组织的评比,与全球存储企业一较高低,从软硬件技术的创新和实现而言,做到了全面的自主、可控、自研,走出了一条属于自己的前进路径。

最后,从宏观而言,随着数据要素的重要性日益凸显,存储这个概念正在迭代为“存力”,曙光存储也是这个概念的引领者和实践者。一直在实践和落地打造具备‘一平台多协议、应用亲和、全域数据流动、安全可靠与绿色节能’五大优势的先进存力中心,以全面满足市场对数据存储的容量、性能、安全与产业化多重需求。

04结语

曙光存储成功登上SPC-1榜首,证明了国产集中式存储的核心性能已经达到世界水平。

但就像汽车市场一样,存储市场追求的从来都不是单一指标,高端存储市场则更加偏好水桶式的产品。除了性能之外,功能性、易用性、经济性等方方面面的考量都存在,而从实际中来看,大型跨国企业由于创立时间长、服务客户多,在体系性、产品丰富度上还有明显优势,中国企业也还有很大的成长空间。

同时,在服务能力、服务水平、ISV生态上,IOE为代表的国际企业在过去20多年甚至更长的时间里,一直是大型机构用户的首选,服务体系、培训体系、存量人才十分健全发达。这也是国内存储企业需要发力追赶的地方。

最后,存储系统大升级是必然,但用“曙光存储”则不一定是必然,即便是国内存力市场,也有越来越多的创新参与者。

值得乐观的是,时代对数字化、智能化能力的需求,是一条单行道。目前,在金融领域、政务领域等大门类中,对数据的存储、处理、挖掘都有更强的需求,而这一赛道的门槛相当之高,市场亟需更多符合中国特色、满足中国用户特色需求的信创产品。曙光存储应该抓住全闪产品代际领先的宝贵时间窗口期,对用户的心智发起饱和攻击,建立起国产全闪集中式存储和先进存力中心的美誉度和品牌势能,让用户从“敢选”变成“想选”,到最后的”指名要选“。

在当下,历史机遇是站在国产企业级存储企业这一边的,我们要因“势”取利,与历史性的需求相向而行。

0 阅读:12
胡说成理

胡说成理

关于智能时代和智能时代的生意逻辑的小天地。