在重视大模型能力建设的背景下,金融机构需要构建起坚实的智能算力基础设施,从传统存力过渡到先进存力。
今年以来,越来越多银行都在积极将大模型技术应用在智能客服场景。
比如工行发布的人工智能金融行业通用模型,可以支撑智能客服接听客户来电,显著提升对客户来电诉求和情绪的识别准确率,大幅缩减维护成本。
江苏银行推出了“智慧小苏L3”模型,能以“话务工单助理”身份融入到人工电话客服领域,提高客服的工单处理效率。
事实上,在金融业经营压力日渐凸显的情况下,大模型已经成为金融机构转型升级的重要突破口。
智能客服、智慧办公、智能开发、智慧营销、智能客服、智慧投研、智能风控、数据分析等金融行业多个场景,正在被一一探索。诸如,建行称内部已有20多个场景投放应用,农行透露已在30多个场景中进行了试点……
在重视大模型能力建设的背景下,性能强劲的智能算力基础设施,是支撑金融大模型高效训练和应用的基座,但业界普遍将注意力投向价格高昂、技术供给上有卡脖子风险的GPU。
事实上,AI大模型训练,需要处理海量小文件,文件数量可达百亿级,需要的存储带宽,比电商大促峰值还要高千倍,若存力不能跟上,将造成昂贵的GPU算力闲置,制约算力的充分发挥。存力,成为金融业落地大模型的潜在卡点。
易被忽视的存力短板金融行业具备大模型落地的良好条件。
一方面,金融机构的数字化成熟度和AI应用成熟度都比较高,具备良好的数据基础、较强的算法技术能力,以及众多潜在的大模型应用场景,为金融大模型落地提供了坚实的基础。
另一方面,金融机构向来重视数字化转型,数字化预算投入较高,且以央国企为主,在大模型算力投入方面具备较强实力和意愿。
一个典型的金融大模型落地场景,一般可以分为数据采集与处理、模型开发、模型训练、模型上线与运营等环节,各环节对于存储都提出了相应的性能和功能层面的需求。
然而,金融机构构建大模型训练的基础设施时,十分注重算力即GPU设备,先把算力池建起来,然后再去考虑匹配网络传输力和数据存储力。“存力”之所以被忽略,主要原因有两方面:
第一,当模型参数规模不大时,存力的短板不明显;然而,当大模型的参数规模越来越大时,存力性能不足的卡点就开始显现。
第二,金融机构IT系统建设历史往往很长。在IT系统上线后,更先进的技术又出现了,会出现新旧不匹配的情况,但为了保持业务稳定,金融机构IT架构很少做大的调整,往往采取渐进式进行。在建设大模型能力方面,高性能GPU会采购,但存储常常应用原有的架构。但新计算+旧存储,无法效率最大化。
“仅仅解决算力和数据问题是不够的”,某金融机构人工智能负责人表示,为了解决大模型所需的算力问题,IT部门采购了很多GPU,但当GPU真正跑起来了,网络和存储能力却遇到瓶颈了,“GPU总是出现等待问题”。
下一代存储浮出水面相比于传统AI的需求,大模型的场景具有数据量大、参数规模大、训练周期长等特点。相对应,它对存力提出了更高的要求,更加强调高吞吐、高带宽、低延时等极致性能。
传统应用中,存储系统也面临海量小文件的处理任务,但经常分散在几个月的跨度里。大模型训练场景却要求几个小时完成这个任务。这使得存储每秒钟要处理的数据量远超过传统互联网应用里的峰值。
“以双11为例,电商业务顶峰时段,某个系统对存储带宽的要求可能在几百GB每秒,但大模型训练,可能每秒要达到上TB的带宽”,上述金融机构人工智能负责人表示,这要求大模型场景下的存储性能相比传统产品提升几十倍到上百倍。
基于此,在重视大模型能力建设的背景下,金融机构需要构建起坚实的智能算力基础设施,从传统存力过渡到先进存力。
根据爱分析《金融行业先进AI存力报告》,金融机构对AI先进存力的需求可以总结为三方面:极致性能、成本可控、国产兼容。
首先是极致性能。为了提升大模型训练速度,需要对大规模数据集进行快速加载,且一般采用数百甚至上万张GPU构成计算集群进行高效的并行计算,需要高并发输入/输出(I/O)处理。一旦存储系统无法及时将数据加载到GPU中,就会使得昂贵的算力资源处于等待状态造成资源浪费。而训练数据集呈现海量小文件的特点,文件量在几亿到几十亿量级,这就要求存储系统具备强大的元数据管理能力。所有这些,都指向了极致的存力性能。
其次是成本可控。目前金融机构普遍面临较强的降本增效压力,大模型整体需要巨大投入,且短期内业务收益并不直接,需要在各方面投入上尽量把控成本。因此,在满足功能与性能要求的前提下,存储系统需要能通过兼容和利旧低成本硬件、提升磁盘空间利用率等方式降低全生命周期成本(TCO)。
第三是国产兼容。金融是信创重点行业,大模型和大模型算力基础设施作为下一代关键技术,也必然要满足信创适配要求,保证核心技术的自主可控。由于当前国内硬件在性能上仍有不足,需要存储系统在软件层面通过算法等技术实现性能优化,避免国产硬件限制整体性能。
其中,存储性能是决定大模型落地的关键因素。爱分析的报告中提到,在同样的GPU算力规模下,存储性能的高低可能造成模型训练周期3倍的差异。
“下一代分布式存储”浮出水面,这也是京东云“云海”身上的鲜明标签。
京东云存储研发负责人说,下一代并不是在上一代存储的基础上做一些性能优化,而是整个技术体系有彻底的变化。在相同的硬件条件下,“云海的整个产品表现达到了可以媲美集中式存储,或者传统分布式存储10倍的水平,并且成本没有提升。”比如IOPS比上一代产品有10倍的提升,IO延迟达到了百微秒,已经是业内领先的水平。
建行的存力选择作为国内金融业探索大模型的先锋,建行的动向有着风向标的意义。
去年12月,建行发布采购结果公示,京东云中标高性能分布式文件存储项目,云海的产品能力获得头部大行认可。
据了解,为了推动金融大模型在各个业务场景中的落地,建行从去年就启动了大模型应用的开发和训练。在实际应用中,该行发现京东云云海可以完美匹配上大模型训练的高速数据存取,大幅提升训练效率,降低算力成本。
作为京东云自研的分布式存储平台,云海从2012年开始启动研发,根植于京东集团内部万亿级营收业务体量下的实践。
面向金融机构大模型场景,云海基于全自研的统一底座,具备高性能、强兼容性、低成本的优势,能很好地满足金融机构对于国产化和软硬件解耦的需求。截至目前,云海分布式存储已服务数家头部商业银行和证券公司的大模型算力基础设施建设。
据京东云通用解决方案负责人总结,云海能够在市场中脱颖而出,源于四个方面的优势:
一是软硬分离,可以帮客户把现有资源都利用起来,在用户现有资源上完成部署;
二是针对大模型所要求的高性能,从并发数到吞吐量,云海均处于行业领先位置,具备千万级IOPS、百GB级带宽的极致存力;
三是具有高度的开放性,可以与客户现有云及IT环境完美融合;支持与用户现有系统对接做定制开发与功能增强;
四是云海经历了大规模的真实业务场景锤炼,能够快速帮助客户与大数据、大模型进行整合。
存力卡点正在解决金融业是数字化程度最高的行业之一,不仅有着海量的数据资源,更有着良好的人工智能应用基础,因而被普遍视为大模型应用的主战场。
然而,新技术的深入落地,从来都是知易行难。从目前业内反馈来看,除了工程化难度大、场景价值有待验证等因素,金融大模型落地的核心痛点还包括大模型的落地成本居高不下,此外,包括存力在内的算力基础设施等方面的卡点,也被反复提及。
实际上,在过往金融信息化、数字化创新发展中,存储历来是构建金融信息基础设施的关键环节。相比计算力、网络可以通过直接采购成熟产品服务快速形成能力,软硬件高度融合且更具开放性的存力建设具有更大的挑战性。
随着大模型浪潮席卷,存力在金融业落地的卡点问题,国家政策层面和行业认知上,正在得到越多越的重视。
在国家政策层面,2023年10月,工业和信息化部等6部门联合印发了《算力基础设施高质量发展行动计划》,强调计算、网络、存储和应用需要共同发展,并明确提出到2025年先进存储容量占比达30%以上的目标。
在行业认知上,对先进存力的认可也在加深。此前,金融行业里,对存储产品的采购主体多是四大行以集采的方式采购传统存储阵列,然后分发到不同的分支机构。但现在采购主体在下沉,不同的机构业务部门基于自身的业务特征,开始逐步考虑高性能分布式存储。
展望未来,在大模型发展风起云涌的当下,金融机构对AI算力基础设施的重视程度与投入力度将持续提升,存力也将从相对边缘的位置走向舞台中央,助力金融机构驶向数智化的星辰大海。
而京东云云海所引领的下一代存储,将成为这条数智化征程上不可或缺的护航者。