华为:构筑先进AI存力底座,引领时代更创造时代

申耀的科技观察 2024-09-24 17:44:51

知名科技杂志《连线》创始主编凯文·凯利曾预测:“在未来的 100 年里,人工智能将超越任何一种人工力量,将人类引领到一个前所未有的时代。”

确实如此,犹如历史上蒸汽机、电力、计算机和互联网等通用技术一样,近20年来,AI正以史无前例的速度和深度改变着人类社会和经济,为释放人类创造力和促进经济增长提供了巨大的机会,同时也成为了驱动新一轮科技和产业变革的重要动力源泉。

特别是随着千亿级参数大模型的不断涌现,多样性算力需求进一步增长,数据作为推动AI发展的核心生产要素,其所释放出的价值日益凸显。从某种程度上来说,数据规模及质量决定了AI智能的高度,也决定了AI在千行万业的应用成熟度。也正因此,构建Storage for AI,打造更高效、更可靠的存力底座已变得至关重要。

在此背景之下,在华为全联接大会2024期间,华为重磅推出全新的AI存储OceanStor A800,使能AI大模型训练和推理,可以说真正释放了先进数据存力,铸就了数智时代的根基。

客观地说,在全新的AI时代,存储市场正在随着新技术、新应用、新介质的出现而不断进化和改变,而在此过程中,华为不仅以前所未有的前瞻力、创新力和产品力,重新定义了整个AI存储未来发展的新方向和新趋势,同时也让AI能够真正“扎根”于千行万业奠定了关键基础,而在这背后更是华为数据存储一直以来领先于时代,更创造时代的真实写照。

01.

AI时代存储变化新趋势

从2023年的ChatGPT,到2024年的Sora,生成式AI和大模型技术正以不可思议的发展速度颠覆着我们的认知,而刚刚过去的一年,“百模大战”更让大模型站上了市场“风口”。根据第三方数据显示,2023年中国人工智能产业规模已达到2137亿元,预计到2028年,中国人工智能产业规模将达到8110亿元,五年复合增长率达到30.6%。

可以看到,国家目前正积极从政策“牵引”以及基础设施投资角度,开展智算中心建设,推动AI数据标准建立,推动AI大模型赋能行业应用;与此同时,越来越多的中国企业也积极拥抱AI,希望获取新技术浪潮带来的先发优势,让生成式AI和大模型技术迸发出来的创新性数字生产力,帮助企业释放出更多的新质生产力。

但与此同时,AI爆发式增长,让承载关键数据的“存力底座”变得更加至关重要,但传统存储系统目前已很难满足企业未来数据增长以及实现企业新质生产力提升的要求。因此,构筑更高效、更可靠的AI存力底座不仅是“趋势所在”,更是“迫在眉睫”。

华为公司副总裁、数据存储产品线总裁周跃峰

在华为公司副总裁、数据存储产品线总裁周跃峰看来,AI时代,存储市场正在发生全新的变化,具体来说:

一是,规模定律(Scaling Law)下需要XPU与存储的超大带宽和极致性能。

Scaling Law揭示了AI人工智能在当前深度学习算法框架下,算力和数据之间 的关系,即更强的算力加上更多的有效训练数据,才可以得到更好的AI大模型。因此,对于存力底座而言,就需要能够快速的将数据供给整个系统,而这背后需要存储具备更大的带宽,更大的吞吐量。

二是,随着AI算力集群规模的持续增长,故障中断次数及恢复所需时间呈指数级增长,如何提升算力集群的可用度变得越来越重要。

众所周知,当前AI算力集群正规模增长,而相邻训练中断的间隔时间也越来越短,这就带来了更加频繁的 Checkpoint 存档,同时也带来了更加频繁的断点续训,因此亟需加速数据访问性能以快速完成Checkpoint的保存与加载。换句话说,这就对存力底座的架构创新以及可扩展性提出了更高的要求。

三是,目前AI也正从训练走向推理,这也要求需要有全新的数据范式与之相匹配,才能更好地推动AI进入千行万业。

可以看到,超长序列正成为大模型推理的主流技术选择,但超长序列也面临诸多挑战,例如推理算力成为瓶颈,推理响应缓慢等。因此,无损成为人们在实现长序列过程中的焦点。

为实现无损长序列,人们一方面注意到单服务器推理模式已经很难满足业务诉求,推理走向集群化成为必然选择;另一方面模拟人脑的快慢思考方式, 基于强一致性的外置独立存储,构建多层KV-Cache等技术,帮助推理集群具备长记忆能力,在推理集群内以存代算、过程结果共享,减少推理算力压力也正在成为新的趋势。

周跃峰说:“传统存储时代,大家更加关注存储的性能、可靠性和数据范式,但是在‘Storage for AI’时代,具备极致性能、高扩展性、数据韧性、可持续发展、新数据范式以及数据编织能力的数据存储,才是通往AI数智时代的必由之路。不仅如此,AI要持续发展并走向千行万业,存、算、网络也要协同发展,由此让整个系统真正实现高效、绿色以及成本更低,才能推动AI实现健康的商业正循环。”

不难发现,AI快速的演进和进化让作为关键支撑的存力底座,无论从供给的水平上,还是技术创新的能力上,都要有所创新和突破,而这也意味着唯有打造面向“Storage for AI”的存力底座,才能更好的推动千行万业拥抱AI新时代。

02.

构筑先进AI存力底座

也正是洞察到这种全新的市场变化,华为重磅推出了全新AI存储OceanStor A800,以长记忆内存新范式全面提升AI大模型训练和推理能力,并在集群性能、新数据范式上实现了跨越式提升,不仅能够更好助力千行万业大步迈入数智时代,更为未来AI存储的进化和演进指明了新的创新方向。

首先,在集群性能方面,OceanStor A800通过构建前端网卡全共享、控制器与后端SSD盘全互联的技术架构,单套存储设备可支持10万卡级集群全互联的大模型训练。数据显示,一套OceanStor A800存储最多可实现与19.2万卡训练集群的静态全连接,性能提升40%,空间占用降低80%。

其次,在算力可用度方面,OceanStor A800也将AI集群的可用度提升了30%,真正实现了“以存强算”。例如,中国移动将华为OceanStor AI存储用于大模型训练,就实现了150PB单存储集群、8TB/s带宽和2.3亿IOPS的能力,集群可用度提升32%,为后续更大规模大模型训练提供有力支撑。

最后,在推理体验方面,OceanStor A800作为业界首款提供长记忆能力的存储,还创新性的采用了多级KV缓存机制,将KV-Cache持久化保存并高效使用,让大模型推理具备长记忆能力,减少在Prefill阶段的重复计算,客户推理时延降低78%,单个xPU卡的吞吐量提升67%,大幅提升推理体验的同时也让成本的大幅降低,让“以存代算”成为现实。

对此,周跃峰强调说:“长记忆内存型存储是一个非常新的名词,其核心的技术创新点是将内存和存储做了分级处理,让存储系统的每一次思考过程以及相关的结果都会记下来。这样未来用户有相同的问题系统就不需要再算了,而可以直接从系统中取出来,通过以存代算,让整个存储系统更便宜、更快,更好的使能长上下文。”

由此可见,在AI大模型正从训练走向推理的今天,华为始终围绕未来数据演进和企业对于AI应用的核心需求,发布了全新的AI存储OceanStor A800,可以说不但能够更好地帮助企业应对AI时代对于“存力底座”的要求和挑战,更为AI应用真正“扎根”于千行万业,激发企业的新质生产力加装了“新引擎”。

03.

引领时代更创造时代

回头来看,华为之所以持续引领存储市场以及存力底座的进化和演进,归根结底在于其始终坚持不断地“创新求变”,这是华为不断取得千行万业用户认可的根本所在,同样也是它始终能够成为存储市场领导者的关键所在,更是其引领时代更创造时代的真实印证,我们可以从三个维度来做更为具体的观察:

第一,是华为存储始终坚持技术创新,由此保证了它在产品和技术上的领先性和先进性。

以最新发布的OceanStor A800 为例,其不仅采用了前沿的数控分离架构,提供了前所未有的10TB级带宽和亿级IOPS处理能力,更在混合负载环境下展现出卓越的高性能表现,有效提升了集群的可用性和稳定性。

OceanStor A800另一大亮点在于其内置的“ModelEngine”技术,该技术能够显著加速数据预处理过程,从而大幅缩短AI训练周期,提升整体训练效率。更为关键的是,在推理场景中,该存储系统支持RAG向量数据库,并借助KV-Cache技术赋予AI大模型“记忆”能力,实现“以存代算”,不仅提升了推理速度,更在保障推理准确度的同时,为行业用户带来更加流畅、精准的推理体验,真正领跑了AI存储时代。

第二,是华为在存储领域的优势不仅建立在对技术和产品的创新上,对企业客户关键需求的深刻理解和洞察,也让华为打造出了很多“标杆级”的客户案例和落地的方案,由此也为中国企业更好地实现数智化转型,更快的拥抱AI时代提供了有价值的借鉴和参考。

比如,在华为全联接大会2024期间,华为与中国移动重磅发布了智算中心超大规模集群AI存储解决方案,该方案在业界大规模部署了多协议融合存储,真正支撑了千亿级参数规模大模型高效训练。

周跃峰表示:“这次华为和中国移动的联合创新和落地实践,相当于给产业界做了一次Benchmark,至少做了第一个阶段的Benchmark,其系统性能是能够超过外国很多AI系统的,这不仅证明了华为AI存储的强大性能以及技术的领先性,同时也说明了未来存、算、网三者要协同发展,才能更好的满足AI不断规模化增长的需求。”

三是,是华为在存储市场中一以贯之对客户存储投资保护的高度重视和关注,也让其在企业通往AI的道路上,构建出了更为强大的安全保障。

可以看到,当前企业在数智化的过程中,既产生出了更多高价值的业务数据,但也大幅降低了黑客门槛,让勒索攻击更加频繁。因此,不管是产生了更多数据的数字化,还是持续成长的智能化,均需要在数据基础设施层面构建防治结合的数据安全体系。

基于此,华为积极构建存储内生安全能力,通过新增勒索病毒检测能力,并推出OceanCyber数据安全卡。只要安装上数据安全卡,原有产品同样具备勒索病毒检测能力;同时,通过设置诱饵文件,勒索攻击侦测准确率高达99.9%;此外,通过搭载DME数据管理引擎,还能够实现对AI集群的精准安全策略管理,让存力底座真正从被动应对攻击走向主动的全面防护。

正如周跃峰最后所言:“数据安全是0和1的关系,勒索攻击导致的数据丢失对于企业会产生非常大的威胁和损失,但是今天大量的厂商、企业在构建存储系统的时候并没有把其中的安全特性作为一个重要的技术要求,因此华为认为未来存储系统集成数据安全的功能将变得非常重要,也将变得势在必行,由此才能更好地支撑企业的AI应用,促进AI在千行万业落地。”

全文总结,在数据驱动的AI新纪元,华为重磅推出全新的AI存储OceanStor A800,为千行万业构筑出了坚实的AI先进存力底座,为企业走向AI新时代按下了“快进键”,相信必将会加速中国企业和行业数智化变革的进程,并激发新质生产力的产生,其价值可谓:“不止于现在,更关乎未来”。

0 阅读:13

申耀的科技观察

简介:企业级市场观察和思考