“多少有点无聊。”
像新华三这样的企业,也感觉过去那些年的市场“多少有点无聊”。每一代算力产品都定点上班、按时下班,严丝合缝地遵循着“摩尔定律”。存储产品要好一些,总算出现了个“软件定义存储”,这多少还能刺激一下研发工程师的胜负欲。
但即使如此,对于算力产品排名市场前二,存储产品位列前三,CAS虚拟化连续六年排名国产化第一的新华三,也还是不够令人兴奋。就像每年都干着同样的事情,没有挑战,也没选择,甚至一眼能看见自己未来十年的样子。
直到人工智能改变了市场格局。
“多元异构”配“开放兼容”“从芯片到架构,再到整机,人工智能时代的基础设施,技术层面出现了百花齐放。”新华三高级副总裁、云与计算存储产品线总裁徐润安表示:“兴奋来自‘百花齐放’,挑战也是‘百花齐放’。”
在此之前,通算市场长期处于“双雄格局”。虽然这种格局也不平衡,但总之,用户的选择并不多。智算市场显然要热闹很多,中国本土的算力新锐,也能得到市场和资本的认可。
这种格局映射到市场,就是百花齐放——不管是算力芯片架构,还是芯片类型都呈现百花齐放的状态。而且这还只是芯片市场的变化,液冷、CXL、SAS、InfiniBand 、RoCE等“配套”技术的变化更多。
所以,新华三的想法很简单——生态伙伴负责百花齐放,新华三负责百川入海。徐润安说:
新华三要通过构建开放兼容的产品平台,通过云平台和傲飞算力平台,消除多元异构基础设施的差异性,将底层的算力、存力、运力,透明地传递给上层应用,让用户高效稳定地使用底层资源。
新华三集团高级副总裁云与计算存储产品线总裁徐润安
“乘势”不仅是“顺势”这里,徐润安反复多次强调了“多元异构”,以及“开放兼容”和“高效稳定”。翻译一下这句话,“多元异构”是现状,“开放兼容”是共识,“高效稳定”是自身。新华三的业务策略大体就是这个思路。
如果从H3C UniServer R5500 G6算起,新华三一直在践行异构计算设计理念。过去两年,这家公司已与十余家GPU厂商合作,而且作为OAI 2.0规范的主要起草单位,其平台已适配超过70款GPU推理卡、训练卡等。
但这样的开放也只是“顺势”,并不是新华三想强调的“乘势”。人工智能正潜移默化地改变着我们的生活。这些改变有些看的见,有些看不见。例如广告互动的触达有效率已经提升了80%。也就是说,人与人之间的互动营销,还不如机器会揣摩消费者的需求。
但“乘势”不仅是“顺势”。
是否发现这种现象?大概15年前,科技产业开始从集中式基础架构,向分布式基础架构转变。科技企业顺势跳出固有阵地,开始布局算力、存力、运力全线产品,谋求推出端到端的解决方案。在此过程中,网络背景的科技企业,似乎转型更顺畅,过得也相对舒服。
人工智能时代也是如此。
新华三在业内率先提出“算力×联接”,这也是新华三智能战略的核心。没有网络技术背景的企业,在人工智能时代只能实现“算力+联接”,但像新华三这样既有丰富算力体系,又有有网络背景的企业,才能充分发挥“算力×联接”的倍增效应。
尤其中国市场就更需要“联接”。中国企业很难拿到顶级的算力,这是现实情况。所以在国外企业部署“万卡集群”时,我们可能要付出成倍的努力,部署更大规模的集群,才能“高效稳定”地训练出同等效果的大模型。
具体而言,新华三希望发挥在片间互联和集群互联等方面的核心优势,激发“算力×联接”的乘数效应,最大限度释放智算资源价值。
目前,用户建设智算中心,最大的痛点就是GPU的空白利用率较高,至少是没有达到用户预期。所以,InfiniBand 和RoCE已经成为智算中心的主流网络架构。其中的原因是,任何一条传输路径的延迟,都可能会造成整个系统资源的浪费。
简单算笔账:GPU服务器在智算中心中的成本占比约80%以上。投资2亿元建设智算中心,其中1.6亿是用于购买GPU服务器。但通常情况下,GPU的贡献利用率只有30%。若将此数字提升至50%,相当于帮助用户节省3200万元以上。
正因如此。徐润安说:“用户能感受到的‘算力×联接’,就是通过无阻塞、低时延的网络的联接,大幅提升智算中心的任务并行处理效率。同时,新华三还将通过CPU、GPU、存储等资源全面池化,通过负载均衡调度,激发智算中心的能量。”
新华三的几个观点不仅如此。“乘势”不仅是看懂产业趋势,也要将产业趋势落实于技术趋势,并最终转化为产品。这就形成了新华三的几个基本观点:
一是,如果“AI训练”是上半场,“AI推理”是下半场,那上半场还远没有结束。至少中国的人工智能市场,虽然“AI推理”需求将快速增长,但“AI训练”的需求,在两三年内还不会见顶。
二是,人工智能产业越“热”,智算就越要“冷”。通用计算芯片功耗已经突破500W,AI算力功耗更是超过1000W。智算产品和智算中心因此面临重构,而且不仅是液冷,科技企业将从空气动力、材料等诸多方面进行立体创新。
三是,人工智能时代的存储市场相当慢热,但马上也要热起来了。2023年,相比于AI服务器82.5%的增长,存储市场就略显低迷,市场规模甚至还出现了0.6%的下降。但从2024年开始,存储市场开始回暖。究其原因,存储一直受上层应用的驱动,人工智能应用已经开始落地,存储需求随之开始增长。当然,此时的存储产品面临重构。
在“乘势”中“进化”正是基于上述判断,新华三一口气发布十余款智算新品。其中包括多元异构算力平台——H3C UniServer G7系列、下一代AI数据存储平台——H3C UniStor Polaris X20000系列,以及全新的傲飞算力平台等。
H3C UniServer G7系列服务器就是一款可“进化”的产品,几乎体现了新华三对算力技术的所有理解。其产品亮点包括:面向AI的可进化架构、内生AI的操作系统和管理中枢,以及拥抱AGI的多元算力体系。
新华三多元异构算力平台——H3C UniServer G7系列
例如,H3C UniServer G7产品采用全面解耦的模块化设计,可拆分出CPU、GPU、存储、散热、I/O、电源等六个子系统,系统之间彼此独立,均可独立随需升级。而且其采用智流风道、智冷散热、智静网棉、智旋风扇、智敏传感等高效系统设计,完美应对了高功耗挑战。
再例如,该系列产品中的H3C UniServer R4900 G7,这是业界唯一支持6张双宽GPU的2U服务器,树立了通用服务器新标准。另一款产品,AI算力旗舰 H3C UniServer R5500 G7则支持万亿参数大模型训练,已覆盖超过15种主流开源大模型的训练。
与此同时,存储领域的新华三也在进化,而且是重构式进化。下一代AI数据存储平台——H3C UniStor Polaris X20000系列全新发布。徐润安介绍这款产品时说“新华三中央软件研究院里的近千名研发人员,经历三年的技术攻关,完成了系统、体验、价值三方面的重构。”
作为智算应用数据存储的底座,Polaris X20000系列通过存储软件栈全面重构大幅精简无效IO并优化IO路径,实现单节点80GB/s带宽、200万IOPS优异性能。而且其一个逻辑资源池同时支持文件、对象以及大数据应用,跨协议访问无需转换数据格式。此外,该产品还将智算存储平台的可靠性从“数据级可靠”提升至“服务级可靠”。
另一方面,超大规模算力、超大规模存储、超大规模组网,对算力设施建设和超大规模算力调度提出了新的挑战。为应对更加复杂的计算需求,新华三持续进化傲飞算力平台,助力行业客户像用电一样,更普惠、更便捷的使用算力。
傲飞算力平台
“智”者生存就此进行总结,按照达尔文《物种起源》的理论,“进化”的本质是适者生存。新华三则希望在“乘势”中“进化”——技术的进化带来产品的进化,产品的进化又推动新华三能力的进化。
这就如徐润安最后所说:“面向AGI时代,新华三将全面构建可持续进化和可持续发展的算力底座,依托‘内生智能 成就智慧’理念,不断探索AI技术与算力产品的深度融合,推进软硬件平台协同进化。”