软件定义时代,存储行业的“百家争鸣”|深度研报

光锥智能 2023-02-17 20:20:01

作者|王圆珍

本报告由势乘资本和光锥智能联合发布

数据容量的持续增加、应用场景的不断丰富、AI的渗透,是存储行业长久增长的核心驱动。具体来说,存储的发展涉及到硬件介质、通信、传输、协议、接口、软件等组成部分的持续演进,其中,针对海量数据存储要求的大容量、高性能、智能化处理,为软件厂商带来更多竞争角度和机会;软件定义存储,一方面是定义功能,另一方面是定义性能,既有面向硬件的持续优化,也有面向场景的无限延伸,因此从供给来看,厂商也呈现出“百家争鸣”的格局。在此格局之下,“小场景,大行业”的差异化竞争策略成为重要的路线选择,为未来增长和竞争持续助力。

核心观点

1.存储技术从介质、传输、协议、接口、软件等呈现持续快速迭代的趋势,每个构成部分的发展速度不一,数据孤岛、烟囱式扩容、被硬件厂商绑定带来的成本高企等成为大数据量企业格外显著的痛点,稳定性、扩展性、成本、与业务时效要求相匹配的性能都成为客户的选型指标,针对历史体量和增量的数据需求,以及被硬件厂商持续绑定的局面,给软件定义与超融合带来持续的机会。

存储整体技术革新方向:

2.极致成本与极致性能是典型的业务走向,全面闪存化大势所趋,深刻影响分布式存储的技术方向。

3.存储与PaaS层连接紧密,市场集中度高,如华为拥有背景、行业沉淀和生态,在获客能力和生态合作上拥有绝对优势,初创厂商要生存,需要找到和巨头竞争的点。

4.软件定义细分的技术方向不同,适用的场景和各自优势不同,细分技术适用性+场景需求匹配可以驱动厂商快速增长;基于开源技术的迭代和优化,工程化及软件成熟度有一定保证,相当于站在巨人的肩膀上,对于研发进度、交付成本等的优化会更好,因此起量会相对较快。

5.竞争激烈将导致毛利率下降,产品化程度需要高或者面向行业找到核心抓手,守住自身护城河;但同时收入增长快、毛利率下降的现状也同时说明产业在快速增长和竞争。

a.基础要求:稳定性、可靠性、性能、易用性。

6.初创厂商鲇鱼效应:现阶段传统存储基于传统架构的强绑定销售是增收的来源,软件定义存储带来的格局重塑倒逼巨头的布局,因此会根据市场动态调整自身策略;初创厂商没有历史包袱,因此可以大力创新。

7.数据智能时代需要厂商具备全生命周期的赋能,需要持续迭代功能,面向创新需要更加开放;比如图像识别、挖掘学习、私有云、容器等新技术的场景。

a.数据的生命周期分为采集、传输、存储、处理、交换和销毁六个阶段,在各个阶段对于核心技术能力诉求不一,但客户以一般以整体需求为导向,因此需要一定程度的外围组件研发工作和流程上的延伸。

8.厂商需面向客户持续提供核心价值:可靠性-丢包、断掉、读取;性能;丰富的功能:可以存什么东西,匹配什么场景,具备什么功能,用户有自身选择;新兴初创厂商取胜关键唯有创新,但是持续研发和迭代无止境,基于标准化和通用化场景的研发亏损巨大。

9.初创厂商基于创新的发展道路短期无法盈亏平衡,需要在收入和产品上给予更多关注,如客户场景不能测试,唯有依靠自身部署机器测试,采购+测试+研发+交付,整体成本高昂,带给存储厂商现金流和亏损压力,融资要跟上;要配置研发的团队,有标准的内部测试流程和外部获客策略,积累足够的测试用例是产品自信的有效途径。

a.发展路径:高度产品化、可靠的方案、长期的价值、具备可挖掘的能力。

10.软件成长之路依靠巨大资金投入与人力投入,以及周期,性能和功能优化是系统工程,软件可以克服硬件的边界,丰富功能和应用,但是软件功能完整、成熟,私有云普及之前,依然要依靠高性能介质硬件等,因此SSD和新一代存储介质目前依然会快速增长,性能和方案稳定等的保证方面,主控芯片仍然会占主流。但与此同时,存储层面需求总体来说较为简单,软件的优势在于可以持续做渐进式的演变,叠加功能和方案,集成硬件出货,因此起量比其他infra公司会更有保证。

一、海量数据+丰富场景是长久驱动

(一)数据规模扩大引起存储扩容的需求

据互联网数据中心(IDC)预测,全球数据量将从2018年的33ZB增至2025年的175ZB,增长超过5倍;中国平均增速快于全球3%,预计到2025年将增至48.6ZB,占全球数据量的比例由23.4%提升至27.8%。其中,中国企业级数据量将从2015年占中国数据量的49%增长到2025年的69%。

(二)非结构化数据成为数据增长主流

互联网兴起,数据创造的主体由企业逐渐转向个人用户,个人所产生的绝大部分数据均为图片、文档、视频等非结构化数据,企业办公流程更多通过网络实现,表单、票据等都实现了以非结构化为主的数字化存档。到2023年,中国的数据量超过80%是非结构化数据,成为数据主流。

场景创新带来更多业务数据,比如自动驾驶、超高清、IOT等业务场景将带来更多数据;以大视频、备份归档为代表的业务,数据量大,价值密度相对较低,发展趋势为高密度、低成本介质,追求极致成本与极致性能是典型的业务走向;以自动驾驶为例,研发过程中,每一辆测试车辆每天产生的数据在10TB到64TB之间,而这些数据需要在24小时之内完成分析,并且研发过程累积的数百PB数据需要保存30年以上。

(三)数据存储的要求:长期保存、持久化保存、分门别类地治理。

数据分析和处理产生的倍增数据存储需求;随着数据大集中、数据挖掘、商业智能、协同作业等大数据处理技术的日趋成熟,数据价值呈指数上升趋势。

资料来源:HGST

大数据技术发展变革,随数据量增长与分析的需求,伴随更多的技术演进趋势与公司出现。

资料来源:中国信通院

(四)自主可控相关政策将驱动2023-2027年存储行业高增长

2022年,9月底下发的79号文,全面指导国资信创产业发展和进度,要求所有央企+地方国企落实信创全替代,受益于信创概念,市场普遍认为,未来五年是“大信创”发展的关键时期,发展空间广阔。

79号文的核心内容归纳如下:

(1)全面替换(OA、门户、邮箱、纪检、党建、档案管理);

(2)应替就替(战略决策、ERP、风控管理、CRM经营管理系统);

(3)能替就替(生产制造、研发系统);

(4)2027年100%完成。

信创为全产业链厂商带来发展机遇;硬件、软件、安全均为企业整体替换方案的重要组成。

数据来源:众诚智库、天风证券

二、存储重要性阐述:存储系统是IT系统中的核心

数据智能时代,数据存储的三大需求:EB级容量、亿级IOPS(每秒进行读写操作的次数,Input/Output Operations Per Second)和智能管理。

1.存储是计算和通信的起点。存储系统的稳定性将影响到整个业务系统的正常运营,存储系统如出现数据丢失、宕机将对业务系统连续性产生致命影响。

2.存储系统的性能将影响到整个业务系统的效率,存储系统的读取速度将决定数据存储与提取效率,直接影响业务系统的效率。

3.存储系统的扩展能力将决定整个业务系统的扩展性,随着大数据时代到来,数据量爆发也对存储系统的可扩展性提出了更高要求,扩展能力将成为存储设备能够支撑数据生产型业务的必要指标之一。

三、存储系统构成

(一)存储部件-硬件

1.存储介质:

依据存储介质不同,存储系统可分为磁盘存储、全闪存储、混闪存储、磁带库、光盘库等。最常见的是以HDD和SSD为介质的存储系统。HDD为磁头、磁盘、马达组成的机械结构,SSD主要以闪存为存储介质。

(1)存储介质性能衡量基准:存储性能委员会(SPC)的SPC-1基准。

(2)全闪存储为存储行业的技术发展方向:更低的时延、更低的功耗、更低的故障率。

(3)SSD固态硬盘结构及功能:

资料来源:华西证券

全闪存储(AFA):指全部以固态硬盘为永久存储介质的存储;全闪存储性能优异,但价格也较高,同时呈现连年下降趋势。

(1)SSD需要高性能,定制化需求提升;客户特殊需求体现在固件和控制器上。

(2)前期普及的闪存主要应用于核心业务场景,提升业务响应效率。

(3)SSD其他相关厂商:得一微电子、国科微、联芸科技、点序科技、忆芯科技、英韧等。

混闪存储(HFA):指永久存储介质同时含有磁盘和闪存盘的存储;与全闪存储相比,混闪存储在性能和价格上进行了一定折中。

磁带库和光盘库:指以磁带或光盘为存储介质,由驱动器及其控制器组成的存储设备;单位存储空间价格较低,支持冷数据的长期保存,但读写性能不高。

EDSFF(Enterprise&Data Center SSD Form Factor,企业和数据中心固态硬盘规格)以高密度、易管理、高效率的优势成为固态硬盘外观发展的新趋势。EDSFF 是面向云服务、企业数据中心的NVMe SSD新形态标准,与传统SSD相比具备高吞吐、低延迟、强扩展性的特性。同时在性能、散热、功耗等方面都做统一的改进,更易适用于大容量、高密度的全闪存储阵列。

(1)2020年Q1-Q3中国存储市场中全闪存储占比18.2%,且全闪存存储的增速较快,较2019年Q1-Q3同比增长20%。

(二)接口&协议:

1.带宽增加,延时降低,高性能和低延时需求促使NVMe协议应运而生。

早期HDD属于慢速设备,具有顺序读写的特点,主机和HDD和早期SSD之间通过单队列进行数据交互,传输协议一般采用AHCI(高级主机控制器接口,Advanced Host Controller Interface)。

随着存储介质的演进,SSD可以同时从多个不同位置读取数据,具有高并发性,SSD盘的IO带宽越来越大,访问延时越来越低。AHCI协议已经不能满足高性能和低延时SSD的需求,因此,存储系统迫切需要更快、更高效的协议和接口,NVMe(NVM Express)协议应运而生。

(1)NVMe协议具备高吞吐、高IOPS以及低延迟的优势。在吞吐量方面,基于NVMe的驱动器的吞吐量可实现高达16Gbps,未来32Gbps或更高吞吐量产品的应用将成为未来发展的主流趋势。

(2)在IO方面,许多基于NVMe的驱动器,其IOPS可以超过50万,部分可提供150万、200万甚至1000万IOPS。在低延时方面,许多驱动器的延迟低于20微秒,部分低于10微秒。因此,NVMe SSD凭借卓越的性能,在2018到2023年之间以38%的复合增长率加速增长,成为云客户、OEM厂商和企业存储数据的首选设备。

(3)目前SSD产品主要使用的接口模块大多适用SATA及PCIe,部分使用SAS接口。其中PCIe具备更好的带宽速度,SATA接口+AHCI协议被PCIe接口+NVMe协议逐步取代是技术趋势。

(4)PCIe(Peripheral Component Interconnect Express)是继ISA和PCI总线之后的第三代I/O总线,是一种设备高速连接标准,具备数据传输速率高,抗干扰能力强,传输距离远,功耗低等优点。

PCIe的不断提速,对于数据中心、工控等各个领域影响非同一般,但在功能实现上需要考虑的问题也很多,包括散热、供电等方面的考虑。

(三)组网(传输介质)

组网类型:IP组网仍然是最主流的组网类型,组网类型的选用取决于成本和效率的综合平衡。

主要硬件设备:交换机、路由器,新华三、华为等市场份额较高,成熟公司为主。

(1)IP组网存储:指采用以太网技术进行组网的存储设备,常见速率包括1Gb、10Gb、25Gb、100bG等;IP组网的兼容性较好,建设成本较低。

(2)FC组网存储:指采用FC光纤技术进行组网的存储设备,常见速率包括8Gb、16Gb、32Gb等;FC组网的效率较高,但采购成本和维护难度也相对较高,普及率不及IP。

(3)IB组网存储:指采用InfiniBand技术进行组网的存储设备,常见速率包括40Gb、56Gb、100Gb、200Gb等;IB组网的延迟较低、速率较高,但采购成本相对较高,组网的扩展性也较弱。

当前的主流的数据中心网络都是要解决多个异构系统的互联问题,即使是单一的大规模应用场景,包括云计算、大数据等,主流也都是以高吞吐量场景,也就是多个节点做多个事情,对节点之间的通信延迟没有很高的要求,更看重的是灵活的接入与扩容。所以这些场景用以太网就非常合适。目前IP组网属于非常成熟和可靠的技术,应用广泛,面向大中小型客户,属于占到90%以上的主流组网方式。

(四)存储类型

文件存储:指自身构建文件系统后,通过互通的网络提供给服务器或应用软件使用,支持数据文件读写和文件共享服务的存储设备。文件存储的常用协议包括NFS、CIFS、FTP等。

块存储:指将物理存储介质上的物理空间按照固定大小的块组成逻辑盘,并直接映射空间给服务器使用的存储设备。块存储的常用协议包括SCSI、iSCSI、NVMe等。

对象存储:指采用扁平化结构,将文件和元数据包装成对象,并抽象成网络URL(统一资源定位器,Uniform Resource Locator),通过HTTP(超文本传输协议,Hypertext Transfer Protocol)协议直接访问的存储设备。对象存储的常用协议包括S3、SWIFT等。

其它存储协议:包括在大数据存储中广泛使用的HDFS协议,以及表存储协议等。

(五)软件定义存储-早期主流技术路线对比

主要软件对比:

FC SAN、IP SAN都要有存储管理软件(如卷管理、数据的快照、镜像、备份、恢复、归档等等)。

数据来源:51CTO

主要厂商

国内SDS产品基于开源路线为主,Ceph占绝对多数,其他有Gluster和BeeGFS。发展到现在,针对场景的代码沉淀逐渐增加,自研程度持续提升,满足自主可控的诉求。

(1)巨头企业

华为:FusionStorage(参考Ceph,块存储)、OecanStor 9000(参考Ceph,文件存储)

浪潮:AS13000(开源Ceph,重点是文件存储)

新华三:OneStor(开源Ceph,块和对象存储)

曙光:Parastor(自研,文件系统,HPC场景)

深信服:EDS(开源Gluster+Ceph,块存储、文件和对象存储)

(2)初创厂商

TaoCloud:XDFS(开源Gluster,以文件存储为主),FASS(自研,新一代全闪块存储)

XSKY星辰天合:SDS系列产品(开源Ceph,块和对象存储)

杉岩:SDS系列产品(开源Ceph,块和对象存储)

鹏云:ZettaStor DBS(自研,块存储)

霄云:BOSS(自研,统一存储)

焱融:YRCloudFile(自研,文件存储)

龙存:Loong系列(自研,文件系统,HPC场景)

附:关于Ceph

存储根据其类型,可分为块存储,对象存储和文件存储。在主流的分布式存储技术中,HDFS/GPFS/GFS属于文件存储,Swift属于对象存储,而Ceph可支持块存储、对象存储和文件存储,故称为统一存储。Ceph也是应用最广泛的开源分布式存储平台。

Ceph的优点:存储功能;利用存储节点的计算能力,在存储每一个数据时,都会通过计算得出该数据存储的位置,尽量将数据分布均衡;由于采用了CRUSH、HASH等算法,使得它不存在传统的单点故障,且随着规模的扩大,性能并不会受到影响。

Ceph的主要架构:

资料来源:InfoQ

Ceph最初的功能模块:

Client客户端:负责存储协议的接入,节点负载均衡。

MON监控服务:负责监控整个集群,维护集群的健康状态,维护展示集群状态的各种图表,如OSD Map、Monitor Map、PG Map和CRUSH Map。

MDS元数据服务:负责保存文件系统的元数据,管理目录结构。

OSD存储服务:主要功能是存储数据、复制数据、平衡数据、恢复数据,以及与其它OSD间进行心跳检查等。一般情况下一块硬盘对应一个OSD。

四、存储架构发展趋势:从集中式架构向分布式架构不断演进

存储市场按照存储架构可以分为传统企业级存储(TESS)、软件定义存储(SDS)、超融合基础架构(HCI),随着数据量增长及数据分析需求爆发,存储架构从传统的集中式存储向分布式演进,分布式存储的主要形式分为软件定义与超融合。

(一)传统企业级存储

DAS(直接连接存储):存储设备是通过电缆(通常是SCSI接口电缆)直接连到服务器的,I/O请求直接发送到存储设备。

应用场景:网络规模较小、数据存储量小、组网简单的小型网络,在中小型企业中广泛使用。

特点:架构连接简单,集成在服务器内部,为点到点的连接,具有安装技术要求低,成本较低优势。

DAS劣势明显:

(1)DAS架构的可扩展性较差,SCSI总线支持的距离最大为25米,支持的设备数量最多为15个,服务器/计算机配备固定容量的DAS存储,如果容量不足、存储空间太小,那就很难从内部进行弹性扩展(外部扩展容量也有缺点),如果存储空间太大也会导致资源浪费,尤其是在服务器领域很明显,直接制约了其可扩展性。

(2)直连存储无法共享,因此经常出现的情况是某台服务器的存储空间不足,而其他一些服务器却有大量的存储空间处于闲置状态却无法利用。

(3)DAS结构下的数据保护流程复杂,如果做网络备份,那么每台服务器都必须单独进行备份,而且所有的数据流都要通过网络传输。如果不做网络备份,那么就要为每台服务器都配一套备份软件和磁带设备,备份流程的复杂度和备份成本会大大增加。

(二)NAS网络连接存储

NAS方式则全面改进了以前低效的DAS存储方式。它采用独立于服务器,使用网络连接存储专用文件服务器来连接存储设备,自形成一个网络。这样数据存储就不再是服务器的附属,而是作为独立网络节点而存在于网络之中,可由所有的网络用户共享。

优势:NAS是独立的存储节点存在于网络之中,与用户的操作系统平台无关,可以做到真正的即插即用,同时NAS还具有资源易于共享、部署简单且扩展性较好等优势。

劣势:存储性能较低,可靠性差。

(三)SAN存储区域网络(Storage Area Network)

SAN是一个用在服务器和存储资源之间的、专用的、高性能的网络体系。它为实现大量原始数据的传输而进行了专门的优化。

1991年,IBM公司在S/390服务器中推出了ESCON技术。它是基于光纤介质,最大传输速率达17MB/s的服务器访问存储器的一种连接方式。

用光纤通道构建的SAN由以下三个部分组成:1)存储和备份设备:包括磁带、磁盘和光盘库等;2)光纤通道网络连接部件:包括主机总线适配卡、驱动程序、光缆、集线器、交换机、光纤通道和SCSI间的桥接器;3)应用和管理软件:包括备份软件、存储资源管理软件和存储设备管理软件。

SAN的优势如下:1)网络部署容易;2)易于存储和备份;3)高性能:因为SAN采用了光纤通道技术,所以它具有更高的存储带宽,存储性能明显提高;4)非常好的扩展性:由于SAN采用了网络结构,扩展能力更强。光纤接口提供了10公里的连接距离,这使得实现物理上分离、不在本地机房的存储变得非常容易。

三种方式对比:

(四)传统集中式存储架构总结

传统SAN/NAS存储的硬件架构采用“控制器+硬盘柜”的方式。中高端存储支持多个控制器,以保障高可用并提高性能。多控制器为紧耦合,通过PCIE总线或Infiniband网络互连,共享磁盘阵列,共享缓存。

BBU:内置BBU电池,进行掉电保护。

控制器其他功能:双活、容灾、CDP等技术保障业务系统的连续性和数据安全性。

传统集中式存储的特性适合作为金融/医疗等核心业务系统的数据库存储。

传统架构中,存储厂商一般自研硬件,核心目的主要有:

1.提高磁盘的IO性能,存储厂商需要自己研制面向IO的存储硬件,比如说在一台存储服务器中需要扩展很多的SATA/SAS接口、扩展硬件RAID功能,如果是高性能的存储设备,还需要扩展控制器之间的专用互连网络接口。

2.应对存储的IO密集型读写,低端存储甚至可以采用计算性能比较差的CPU进行设计。

3.提高存储的高可靠性,传统存储往往追求硬件设计的可靠与稳定,通过提高硬件的可靠性来达到存储可靠的目的。在这种传统存储的思路下,存储的设计主要分成存储硬件和存储软件设计两大部分。

传统存储的问题:硬件绑定;总拥有成本高(资本支出+运营支出);可扩展性差;数据孤岛。

1.硬件绑定:专用存储硬件是各个厂商独立开发的,具有封闭性,容易绑定客户,进行持续的扩容销售、运维和提供服务,同时对于客户来说,由于数据迁移的风险和费用很高,客户一旦选择某一厂商存储,后续就需要持续复购;所以存在软件定义存储的发展趋势,用户急需能够对现有存储进行统一整合并且能兼容其他厂商设备的存储管理软件。软件定义存储的理念就是将硬件归一化,而把之前通过专用存储硬件实现的提升IO性能和可靠性等功能都由软件来实现。

2.传统集中式存储在成本、可扩展性等方面存在劣势。传统集中式存储采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。

3.传统存储采购和运维成本高,效率低下。传统集中式存储最大的弱势在于只能凭借在系统中增加大量磁盘驱动器来实现较高的性能,而这种方式必然带来昂贵的开支和营运费用。存储厂商通过在混合结构中增加闪存,尽力克服磁盘阵列局限性,但是旧有基础架构并不能真正发挥闪存的效率,发挥其最高性能。而且,混合阵列也不能轻易地跨多个系统进行共享,这样就导致效率低下。

4.数据孤岛问题严重,资源闲置率高。引入SAN技术之前,存储采购的目标主要是阵列的嵌入式特性/功能和物理硬件属性,如可扩展性和可靠性。一旦SAN 被广泛地采用,用户面临的就是各种各样的型号和品牌,因此他们只能根据具体的项目需求建设一套又一套的存储设备,这在很大程度上使不同的存储设备在用户的系统中是一个个孤岛。这就造成了不同业务系统的存储资源无法均衡并且维护成本居高不下。

(五)分布式存储系统成为存储发展主流

分布式存储是将数据分散存储在多台独立的设备上。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。

1.软件定义存储

软件定义存储:将存储硬件中的存储控制器功能抽出来放到软件上,包括卷管理、RAID、数据保护、快照和复制等等。

虚拟化和虚拟化和云技术的发展和成熟转变了数据中心的设计、建造、管理和运维方式,这种变革使软件定义存储越来越有吸引力。

根据分布式存储系统的设计理念,软件和硬件解耦,存储的很多功能比如可靠性和性能增强都由软件提供,但是并不意味着硬件不重要,但是实际中进行分布式系统集成时,除了考虑合适的分布式存储技术意外,还需要考虑底层硬件兼容的问题。

分布式存储系统的产品形态一般有:软硬件一体机、硬件OEM、软件+标准硬件。

优势:

1.灵活部署:控制器的功能不仅仅局限在单一设备,如果存储控制器功能被抽离出来,该功能就可以放在基础架构的任何一部分。它可以运行在特定的硬件上,在hypervisor内部,或者与虚机并行,形成真正的融合架构。

2.存储系统整体性能的大幅提升。分布式架构提升了系统整体的聚合性能,可以在不改变硬件配置下进一步降低访问延迟。

3.中立:软硬解耦、易于扩展、自动化、基于策略或者应用的驱动。就业务应用来说,即不限制上层应用,不绑定下层硬件;除了提供块存储,也可以在同一平台提供文件、对象、HDFS等存储服务,实现非结构化数据的协议互通;同时应具备完善的监控能力,实现应用感知。允许用户不必从特定厂商采购存储控制器硬件如硬盘、闪存等存储介质,硬件归一,软件价值凸显。

4.开放性+水平扩展。开放化意味着接口标准化、服务原子化,保证客户的应用系统能够以最顺畅的方式对接基础存储设施,可微调解决方案细节,达成高质量的服务。水平扩展则是云计算弹性环境的必然要求,在移动互联网环境下,业务应用的负载量是突发式、潮汐式、难以精确预测的,应用要求存储的容量和性能都必须能够线性扩展以满足上层应用需求。

5.采购成本和总体拥有成本降低。如超融合系统,在使用成本方面,服务器+超融合软件(或超融合一体机)的采购成本有大幅度的降低。除采购成本外,超融合系统在总体拥有成本上有更大的优势。SmartX在某证券客户的支撑案例中,超融合解决方案协助客户提升15%的资源利用率、降低60%的运维工作量、同时每年的IT采购成本降低50%。

6.影响现有存储格局:未来软件领先并且具有持续研发能力的厂商将打破现有存储格局,降低新厂商的准入门槛,为全行业带来更多可能;所以,未来市场可能存在由集中度高的市场格局演变为更加分散的市场。

(六)超融合架构

1.超融合定义

软件定义的IT基础架构,可以虚拟化常见“硬件定义”系统系统的所有元素,对传统存储设备进行统一管理、池化,然后映射给上层主机使用;把应用程序存储与物理的数据存储基础设施分离;这将实现存储资源的“灵活”分配、重新分配或不分配。存储虚拟化提供一种把存储服务从存储包中分离出来的方法,即使基本的硬件和互连被变更,仍然能提供卷的持续性。

超融合基础架构除对计算、存储、网络等基础元素进行虚拟化外,通常还包括诸多IT架构管理功能多个单元设备可以通过网络聚合起来,实现模块的无缝横向扩展,形成统一资源池。

超融合基础架构图示:

资料来源:志凌海纳

4大优点:更好性能、更高可靠性、更加敏捷、易于维护,企业可以降低IT基础设施的总体拥有成本。

(1)解决传统存储“烟囱式”扩容的弊病,充分利用用户已有的存储设备,实现多厂家设备的异构、数据的迁移、容灾和统一管理,充分实现客户存储硬件的投资价值。

(2)解决被单一存储厂商绑定的问题。

(3)虚拟化技术可用于跨多个系统灵活分配存储空间,通过使用缓存系统来发挥闪存的优势。

2.存储虚拟化实现方式

基于主机的虚拟化在主机服务器上实现;基于存储网络的虚拟化,需要在SAN网络中添加虚拟化网关的支持来实现;基于存储设备、存储子系统的虚拟化,依赖于提供相关功能的存储模块或第三方的虚拟软件来实现。

(1)基于主机的虚拟化

一般由操作系统下的逻辑卷管理软件完成(安装客户端软件);优点是支持异构的存储系统,缺点是占用主机资源,降低性能;存在操作系统和应用的兼容性;导致主机升级、维护、扩展复杂,容易造成系统不稳定;数据迁移过程复杂,影响业务连续性。

(2)存储网络虚拟化的实现设备-虚拟化网关

优点:不占用主机资源;支持主机、异构存储设备;不同设备的数据管理功能统一;可扩展性好。

缺点:占用交换机资源;成熟度低。

虚拟化网关价格高,市场规模看起来并不大;——降低存储系统新厂商准入门槛,SAN开始面临公平竞争,有利于行业推陈出新。

资料来源:百度

(3)基于存储设备、子系统的虚拟化

在存储控制器上添加虚拟化功能,常见于中高端存储设备。

优点:不占用主机资源,数据管理功能丰富。

缺点:一般只能实现对本系列设备内磁盘的虚拟化;不同厂商间的数据管理功能不能互操作;多套存储设备需配置多套数据管理软件,成本高。

五、分布式存储市场广阔,增长可期

(一)整体市场规模

存储市场全景

据IDC的预测,2021年中国企业级存储市场空间55亿美元,2020-2024年中国企业级存储市场将保持7.16%的年复合增长率,到2024年中国企业级存储市场空间将达到65.9亿美元。SDS和HCI的增速远远超过TESS,其中SDS未来四年复合增长率12.8%,HCI未来四年复合增长率13.0%。

从行业角度看,在电信和制造业中,SDS产品的市场需求增加,预期将支持电信和制造业中许多新的在线工作负载,以支持边缘计算工作负载(如环境监测或制造设计等)中非结构化数据的捕获和分析。

(二)全球软件定义存储市场规模

据Transparency Market Research发布的《Software Defined Storage Market》表明,从2019年到2027年,全球软件定义存储市场年复合增长率达到25%,市场规模将达到536亿美金。北美和欧洲的存储市场受到政策引导和资金扶持,将持续保持高速增长,其中北美仍是软件定义存储的主要市场。

全行业都呈现软件定义存储的发展趋势。

根据Gartner 2020年存储战略路线图预测,到2024年,全球存储容量的50%将作为SDS部署在本地或公共云上。与2020年相比,2024年的大型企业将会存储在本地,边缘或公共云的文件或对象存储的非结构化数据将增加两倍。

据IDC发布的《中国软件定义存储(SDS)及超融合存储(HCI)系统市场季度跟踪报告,2020年第四季度》报告显示,2020年软件定义存储与2019年相比增长了51.7%,超融合存储系统增长了36.5%。

(1)新应用场景成为推动分布式存储发展的有力抓手。从新应用场景角度来看,金融行业出现了如“远程柜台”、“人脸/指纹识别”等新型金融应用,实现了结构化数据向非结构化、多类型数据的转变;教育行业积极部署信息化和网络辅助教育,教学模式多样化如“线上教学”、“混合式教学”等形式对存储容量要求也不断提高。针对多类型数据混合存储带来的存储性能问题,分布式存储系统能够有效解决。

(2)国内某运营商为例,2019年分布式存储集采达到600PB以上,并且计划未来5年将传统存储数量减少70%。

六、技术走向场景,厂商发展各具特色

(一)竞争格局:大厂/初创厂商

主要的厂商列举

中国厂商:在传统存储阵列领域,当前市场份额较大的厂商包括华为、新华三、浪潮、曙光等;在分布式存储领域,华为、曙光、新华三、XSKY等厂商占有较大市场份额。而在云存储领域,阿里云国内领先的云存储厂商。属于技术与市场壁垒双高的领域。

软件定义存储:行业集中度极高,top前五占据70%+;2018年到2021年,前五的市场份额在缓慢下降。

华为市场份额同比减少2.6%至39.1%;收入为27亿元;

曙光增加0.3%至13.5%;收入为12.8亿元;

新华三减少3%至10.2%;收入为9.7亿元;

浪潮猛增4.6%至9.2%,跃居第四位;收入为8.7亿元;

XSKY增加0.55%至8.1%,降至第五位;收入为7.7亿元。

备注:以上数据可作为简单参考,因为统计口径与硬件占比等,可能与实际情况有一定差异。

(二)华为

华为认为软件定义存储并非普世良药,基于软硬结合的方式才是合适的路径。

分布式存储2023年将占据企业存储市场的35%以上,云化、设备整合、设备联网是推动力,不再是趋势,已经是现实。

丰富协议类型,对象、块、大数据存储等,2019年推出大数据存储。

基于传统企业存储持续打造企业级分布式存储的能力,2020年底全球客户数3000+,中国区市场份额第一。

融合+智能理念,自研存算传管芯片,提供专用硬件服务。

存算分离、大数据虚拟化、对象资源池、视频云等五大解决方案。

未来战略:软件+硬件的双轮驱动,基于软硬结合推动产业;客户需求出发,面向业务的创新,追求稳定性、效率与成本。

(三)中科曙光

公司分布式存储市场份额国内前三。公司分布式存储包括分布式存储系统ParaStor300S、分布式块存储系统XStor1000、区块链存储系统ChainStor等。

根据IDC数据,2021年,中科曙光分布式存储以11.3%的市场份额位列国内软件定义存储市场第三位。其中,曙光ParaStor以20.6%的市场份额,位列中国分布式文件存储市场份额前二,公司连续第8年获得此殊荣。

主营高端计算机业务的协同作用。市场对计算和存储的需求具备明显的相关性,随着公司向客户销售的高端计算机规模扩大,相同客户对存储产品的需求有望同步同步增长。预计2022-2024年,存储产品收入分别为12.93、15.78、19.30 亿元,增速分别为21.5%、22.1%、22.3%。

(四)新华三

新华三拥有计算、存储、网络、安全等全方位的数字化基础设施整体能力,提供云计算、大数据、智能联接、信息安全、新安防、物联网、边缘计算、人工智能、5G 等在内的一站式数字化解决方案,以及端到端的技术服务。同时,新华三也是 HPE®服务器、存储和技术服务的中国独家提供商。

面向全闪的H3C ONEStor 5.0是H3C与英特尔携手打造的全栈优化产品,关键优化技术包括DCache加速、重删压缩加速、固态盘耐用性提升等多个方面。

资料来源:新华三

新华三UIS超融合占据国内主导地位IDC发布《中国软件定义存储及超融合存储系统市场季度跟踪报告,2021Q4》,报告显示,2021年二季度至四季度,紫光股份旗下新华三集团在超融合存储系统市场连续三个季度保持市场第一,并以全年21.9%的市场占有率问鼎中国超融合市场。新华三UIS超融合架构具备“全域云”的能力,为企业数字化转型提供核心能力,备受市场认可。

(五)杉岩数据

海量非结构化数据存-管-用一体化的解决方案,国家级“专精特新”小巨人企业。

全分布式架构,基于通用服务器硬件线性扩展,提供EB级容量,支持百亿级文件存储;支持EC机制,降低存储成本。

(1)更快的IO、高并发、大容量、副本+纠删(节点故障会触发系统自愈、成本可控)。

智能缓存技术低成本,可以高效加速数据访问性能。

(1)高性能介质缓存热数据,低性能介质保存温冷数据,保障高优先级业务性能,有效降低整体硬件成本。

(2)技术特性:多级缓存加速;数据类型智能感知;大块数据透传。

(3)特性优势:元数据/高优先级数据优先缓存;低优先级的数据全不缓存;中优先级的数据自动冷热分层;基于优先级在线调整,不影响业务。

海量小文件合并技术实现百亿文件性能平稳

支持未来湖仓一体建设

(1)接口支持全:100%兼容POSIX、HDFS、S3三大主流访问协议,能对接大数据和AI训练的主流访问协议,能对接大数据和AI训练的主流应用;对于Hadoop生态的上层应用完美兼容,不需要做任何改动。

(2)元数据支持分离部署:性能和扩展性强,大数据分析场景的Listing、Rename操作响应速度快。

(3)支持数据智能缓存、数据预读、并发读:在大数据场景下的Parquet和ORC数据格式分析场景性能有保证。

(4)Kubernetes CSI支持:支持容器共享,便于K8S调度。

数据来源:杉岩数据官网

面向行业的应用需求延展-机器视觉质检数据存储解决方案,智能分析和挖掘数据价值:为多个生产线的机器视觉设备提供统一的图片、日志数据采集、存储、和管理平台。存储底座采用全分布式架构,存储的性能可随节点数量线性增长,能满足众多机器视觉设备同时保存高清晰度图片的需求,并确保多并发、高带宽和低时延读写;针对不同工序产生的图片、日志数据的保存时间和访问性能的要求,通过数据自动分层功能,让数据在合适的时间存储在合适的介质中,并根据管理策略将历史数据自动归档至蓝光存储或公有云,实现低成本长期留存。

数据来源:杉岩数据官网

(六)XSKY 星辰天合

根据IDC等第三方权威报告,XSKY星辰天合在SDS中国市场整体份额中,位居前五,是 TOP 5中仅有的一家专业软件定义存储厂商。其中,对象存储细分市场排名第二,仅次于华为,在专业软件定义存储厂商中已经连续4年排名第一,在块存储细分市场,排名第四。

产品

(1)整体产品架构:

(2)针对结构化数据的解决方案:

资料来源:XSKY星辰天合

优势:针对x86和新的服务器生态,支持跨生态数据的无缝迁移。

xmotion:纳管热迁移技术-Zstack、OpenStack、CloudStack等云平台。

提供面向虚拟机和租户的存储计算一体化迁移方案。

支持存储在线热迁移,业务无需终端。

(3)针对非结构化数据的产品&方案:

资料来源:星辰天合

X3DS:立体数据管理系统,支持非结构化数据的复制、迁移、备份、归档。

支持跨厂商文件和对象存储之间数据相互移动。

支持跨云的数据上云和下云。

(七)SMARTX志凌海纳-超融合基础架构

主要价值:

以简洁的架构提供高可用方案。超融合由于其融合部署架构,可有效协调虚拟化和存储高可用联动的问题,从而以非常简洁的架构提供不同级别的高可用方案。

产品架构图示:

SMTX OS包括:

SMTX ELF VM Service(计算)虚拟化管理平台

SMTX ZBS Distributed Block Storage分布式块存储系统

SMTX Fisheye Web Console超融合管理平台

SMTX MultiActive Cluster双活

SMTX Backup异地容灾备份

资料来源:志凌海纳

SMARTX场景:交易系统、MES系统、HIS系统等核心场景。

优势:高性能的超融合存储软件,软件升级促进系统性能提升;核心系统需要迁移到超融合系统,硬件和软件协同优化。

参考资料:

华西证券:企业级SSD:三大替代构筑行业高增长,国产替代空间广阔

渤海证券:介质与架构升级并举,企业级存储市场腾飞在即

信通院:下一代数据存储技术研究报告

0 阅读:10

光锥智能

简介:AI产业第一媒体,关注千行百业的数智化。