​1:1公有云能力整体输出,腾讯云“七剑”下云端

阿明观察 2024-07-17 20:54:19

【全球云观察 | 科技热点关注】

曾几何时,云计算技术的兴起,为千行万业的数字化创新带来了诸多新机遇,同时也催生了新产业新业态新模式,激发出高质量发展的科技新动能。很显然,如今的云创新已成为高质量发展的重要引擎之一,有助于大力推动数字经济的创新发展。

01

「to B化浪潮异常凶猛」,

公有云“出圈”势在必行

随着企业上云成为习以为常的事,云计算不断驱动行业创新,系列成果竞相涌现,进而引发了公有云to B化大潮。全球云观察分析指出,赋能千行万业的高质量创新发展,云厂商加强公有云整体能力的输出,将在行业数智化发展中起到至关重要的作用。

然而,一个全新的AI时代正在开启,生成式人工智能(Generative artificial intelligence,GAl)迅速发展并影响着人类社会,给千行万业带来前所未有的震荡与变革。就此,Gartner最近分析指出,生成式人工智能正在推动中国企业数据中心设计转型,鉴于监管要求以及数据隐私和安全方面的担忧,相比国外企业,中国企业更倾向于在本地而非通过公有云部署生成式人工智能。

然而,之前采取本地部署的传统私有云却面临新的挑战,难以胜任生成式人工智能等新业务发展,维护管理复杂麻烦暂且不说,软硬件更新迭代成本也很高,此外应用部署与迭代效率低下,敏捷高效更是难以为继。

这将意味着什么呢?公有云厂商生逢其时,重任在肩,针对生成式人工智能的发展,施展云能力的舞台将变得无比广阔。

如此一来,对于公有云能力整体输出全面、专业、到位的云厂商,必然能在这一轮大模型的AI大潮中,赢得先机,乘风破浪,直挂云帆济沧海,实现自身的高质量发展。这一切,又将迫使公有云厂商持续走下云端,走出公有云的圈子,开启新一轮to B行业落地的热烈较量。

就其云计算不同类型而言,公有云有着成本效益、灵活性和可扩展性等优势,适用于初创公司、中小企业和个人用户等需要快速、灵活和低成本的应用场景。分布式云有着可用性、可靠性和可扩展性等优势,适合大型企业和金融机构等需要高度可靠和可用,同时兼顾在多个地理位置部署多个云平台的应用场景。

腾讯云不仅在公有云领域有着成熟的产品与技术阵营,而且在分布式云领域准备充分且创新一直就没有停止过。

目前,腾讯云基础设施覆盖地区达21个,运营可用区58个,全球服务器数量100W+,全球加速节点数 3200+,全球带宽储备200T。资源决定实力,能力决定未来。腾讯云以卓越的技术能力打造丰富的行业解决方案,构建开放共赢的云端生态,助力行业数智化的高质量发展。

长期以来,从公有云到分布式云,腾讯云凭借其深厚的实力不断贴近行业数智化需求,赋能千行万业的创新发展。早在2021年,腾讯云就已经宣布推出了自己的分布式云战略,正式官宣“出圈”。腾讯云公有云能力不断下沉,在分布式云领域持续创新进化,进一步丰富产品与服务,有效整合公有云能力,助力企业数智化转型的加速,为分布广阔的千行万业贡献分布式云的创新力量。

深入分析来看,在分布式云领域,腾讯云分布式云形成了不同云计算形态、不同部署位置和不同规模的全场景覆盖,并帮助用户实现一致管理、高效便捷的建云、上云、用云与管云,助力降低部署与维护成本,提升应用效率。腾讯云分布式云价值优势尤为突出,不仅专属安全,而且弹性便捷,这主要归功于腾讯云1:1公有云能力的复制,与公有云同构而生,加上持续不断丰富的云服务、生态服务,从而成为了在AI大时代下的新一代本地化云平台首选。

腾讯云分布式云在传统私有云替代、本地合规上云、边缘算力、行业云、产业云、集团-分支云、本地智算平台、大型智算中心和企业业务出海等典型场景实践中得以能力的充分发挥,不仅具备与公有云一致体验,而且为具体场景应用带来低延迟、高可靠性、高性价比的效果,同时也满足本地化算力的数据合规性。即便是强合规的政府、金融等应用场景,腾讯云分布式云的云边端协同能力也可以发挥到极致,实现数智化转型的降本增效。

很显然,腾讯云分布式云是一朵与时俱进的云。在这之前,为to B千行万业创新输出,腾讯云分布式云形态不断丰富,已经打造了专属可用区CDZ、本地专用集群CDC、专有云TCE、云原生套件TCS、云原生分布式云(TKE Anywhere/Connector/Register Node)和边缘安全加速平台EdgeOne总计六大分布式云的核心产品线,有效支撑了用户云原生跨平台算力管理、全位置算力覆盖、专有合规上云等不同需求,助推行业数智化发展,并在政府、运营商、能源、金融、工业、交通出行、互联网、教育、医疗等行业领域已经实现广泛落地,打造了一朵引人注目的金融云与政务云

随着人工智能技术的飞速发展,AI基础设施已经成为支撑企业智能化转型的关键要素。为了满足企业在AI领域的极致需求,腾讯云一直致力于打造高性能、高可用的AI基础设施。

在过去的发展中,腾讯云服务了大量的公有云客户和自研业务,积累了丰富的产品技术能力。在GPU硬件服务器基础之上,为客户提供了高性能计算集群HCC软件能力、RDMA智能高性能网络IHN、高性能存储TurboFS、软件加速框架Taco,打造出高性能、高性价比均领先业界的强大AI算力,可大幅提升AI训练和推理业务性能,实现万亿参数大模型训练时间缩短 80%。

为此,腾讯云融入诸多创新能力于2024年7月正式推出腾讯云智算套件,持续将公有云积攒的雄厚技术能力再次1:1对外输出,支持私有化与分布式云部署。腾讯云智算套件不仅适用企业组织基于自有硬件搭建高性能专有智算云,满足单租户情况下的大规模物理算力集群场景、自研大模型场景与资源共享场景,而且也适用平台化运营形态,满足多租户情况下的云化算力集群场景、资源隔离场景,以及对外售卖、计量计费场景。

由此可见,腾讯云如今“出圈”的能力表现得更为细致化、更为极致化、更为接地气。不过,作为早已“出圈”的腾讯云,都如此倚重智算套件的七大技术能力,这样说来,该七大技术能力必然呈现出了异乎寻常的创新。

02

「“七剑”下云端」,

新品“智算套件”到底暗藏什么玄机?

在云厂商to B化发展大趋势中,对于腾讯云而言,七大技术能力通过智算套件解决方案强力输出,犹如“七剑”下天山一样锋芒出鞘,谁与争锋。

或许你会问,“七剑”下云端,智算套件到底暗藏着什么玄机呢?下天山的七剑之所以在江湖上非常有吸引力,在于七剑拥有各自的神奇属性与独特功能。智算套件的七大技术创新也同样拥有不同的目的与价值,并且能为用户智算需求带来应有的创新回报。

由龙剑之高性能计算集群HCC。晦明大师采用玄铁打造的由龙剑名不虚传,一剑既出,无坚不摧,众剑臣服。腾讯云的高性能计算集群HCC好似“由龙剑“,无往不利。HCC采用腾讯云星星海自研服务器,对外提供最新代次GPU实例。凭借腾讯云独创的软硬件协同优化,支持训练性能提升30%以上,为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。可谓性能超强,且又高可用,对于模型训练各种算力挑战迎刃而解,超100小时连续训练不在话下。

莫问剑之智能高性能网络IHN。智能算力存在“木桶短板效应”,只是依靠GPU卡不足以发挥算力优势,相关网络、存储等因素对其影响也颇大。正所谓大集群不等于大算力。

莫问剑属于天山七剑中造型最为古朴的利器,乌黑剑刃,修长弹性,剑招善变,应对自然,使用者需要有大智慧。软硬一体的智算网络解决方案(IHN)犹如莫问剑,计算子网络的高带宽、高智能可以灵活地应对各类智算场景下的网络挑战。可谓莫问智算有愧,只求IHN无悔。在对外输出IHN时也如莫问剑一样富有弹性,腾讯云提供软硬一体的IHN产品将腾讯云领先的GPU网络能力向用户输出。

IHN拥有3.2Tbps超高接入带宽的RoCE网络,相比上一代产品实现了60%的通信效率提升。值得一提的是,IHN采用一套网络架构灵活支持多种异构卡混跑接入,性能与智能的双双优化不仅降低了网络通信时间,还间接提升了GPU的利用率。

IHN全栈自研的软硬一体技术保证了极致的性能和统一的产品体验,业界一流的建设效率加上分钟级集群自愈能力、全链路的精细监控让客户应对自如,完整地保障了客户算力的稳定运行。RDMA创新标杆,IHN当之无愧。

青干剑之高性能分布式文件存储TurboFS。青干剑以陨石锻造,千锤百炼,青铜凹凸,奇钝无比,能守大局。何为大模型训练与推理的大局,其核心必在数据存储。腾讯云自研高性能存储TurboFS好比青干剑一样,历经多重创新,基于分布式架构,采取多级缓存加速,实现100GBps存储带宽与1000万IOPS性能,满足大模型训练需要的极致性能,能守住用户AI应用的数据存储大局。

事实上,大模型训练、推理对存储系统要求能存储更多数据,拥有更大吞吐,实现更高并发。因为TurboFS属于腾讯云自研的高性能并行文件存储,代码都在自己手里,性能调优能力自然更佳,可以帮助用户优化大模型训练、高性能计算、视频制作等极端场景下的存储性能,特别是针对智算中心千卡万卡并发读写有奇效,确保用户的应用成功,让业务无感知。

腾讯云在自研并行文件存储系统的过程中,还实现了不少新突破,而这些技术突破让用户模型训练享受到业界少有的存储高性能。比如通过持久化客户端缓存技术,将裸金属服务器本地NVMe SSD和Turbo文件系统构成统一命名空间,实现微秒级延时,融入闪存技术的参与自然可以解決大数据量、高带宽、低延时的大模型场景诉求。此外因为支持自动冷热数据分层技术,自动沉降低频访问的Checkpoint和样本文件,从而带来存储成本的极致优化。

竞星剑之云原生调度编排TKE&qGPU。竞星剑的特点剑轻灵巧,藏身方便,神速迅猛,亦动亦静,“疾雷不及掩耳,‌迅电不及瞑目”之势解决战斗。云原生调度编排TKE&qGPU与竞星剑的特质不谋而合,采用容器编排技术,敏捷高效支持智算应用。

腾讯云容器服务平台TKE支持原生K8S API,通过插件机制和高性能基础设施进行集成,同时支持多种容器GPU插件,支持RDMA高性能网络。qGPU作为腾讯自研的新一代容器GPU虚拟化方案,精准切分GPU实现GPU资源虚拟化,让GPU资源实现更好的池化,调用GPU资源神速迅猛,可以很好应对异构智算挑战,解决智算资源利用率低的问题,支持在离线混合部署能力,GPU利用率压榨到极致,从而也带来了部署密度20%的提升。同时还拥有GPU Manager的算力隔离能力,让算力智能化实现GPU共享中的干扰问题。

日月剑之训练加速TACO Train。针对大模型训练,软件加速框架TACO带来前所未有的性能支撑,可以为用户带来创新体验。TACO Train好比AI训练性能加速的日月剑,日月剑由两把相连的母子剑组成,攻击范围可大可细,亦可双剑一体出击。TACO时而双剑合一实现训练与推理的一体化,时而单剑出击满足训练高性能加速需求。可谓变化多样,满足AI训练与推理的性能苛刻要求。

作为腾讯云自研的大模型训练加速引擎,TACO Train对网络协议、通信策略、AI框架、模型编译有着独创性的大量系统级优化,大幅节约训练调优和算力成本,成为大模型型训练加速的日月剑,可以根据用户训练的规模实现智算资源的优化利用。

舍神剑之推理加速TACO LLM。舍神剑攻势力大,宽大钝重,能开山辟石,善担当。腾讯云推出的这款易部署的大语言模型推理加速引擎,面对模型参数大的压力从不退缩,犹如舍神剑那样善于担当重任,能将并行计算能力与分布式推理能力发挥到极致,应对用户“模型大,一张卡放不下”的尴尬。

TACO-LLM采用分布式推理框架,拥有动态Batching、Paged Attention等多种特性,支持多个主流模型。作为AI的核心引擎,TACO-LLM可以快速接收用户的请求,并且迅速进行处理和回应。因为TACO-LLM基于腾讯云异构计算产品研发,所以更能充分利用计算资源的并行计算能力,从而可以带来更高吞吐和更低时延,处理模型推理请求吞吐性能提升了78%。模型再大也不怕,TACO-LLM加速提升语言模型的推理效能,带来兼顾高吞吐和低时延的推理效果,从而减少了生成结果的等待时间,提高推理流程效率。

天瀑剑之通信套件TCCL。天瀑剑作为双头剑,攻守兼备,细长善藏,剑光善变,颤动如飞瀑流水,幻化无穷。作为腾讯集合通讯加速套件TCCL,宛如一把天瀑剑那样善于应对各种变数的挑战,以自身强大的集合通讯能力,敏捷支持AI大模型训练和推理,其强大的网络拓扑感知技术能够减少了50%~80% SPINE流量,带来大模型训练场景下的极致的网络性能。

诚然,“七剑”下云端,凭借1:1公有云能力整体输出,打造了智算套件,不仅让腾讯云拥有了新的超强战斗力,而且也可以让更多的行业用户从中享受到智算带来的红利,从而加速数智化转型进程,迎来高质量发展的新机遇。

03

「小结」

Al Infra整装进发,数智赋能勠力争先

全球云观察分析认为,从全球千行万业的发展趋势来看,下一个十年,AI创新和AI算力创新将是不可或缺的新质生产力。AI基础设施理所当然成为了支撑企业数字化、智能化转型的关键要素。为了满足千行万业在AI时代的新算力需求,作为公有云领域著名代表厂商,腾讯云基于强大的公有云体系与能力,自研攻克多重技术难题,锻造出助力数智化转型的“七剑”,特别整体封装为腾讯云智算套件,构建起了智算时代的腾讯云“Al Infra”。

进一步分析来看,厚积薄发才能铸就辉煌,而成熟稳定的智算套件才是用户之选。腾讯云智算套件的推出是基于服务公有云百万客户大规模训练、推理等多种智算场景,满足算力、吞吐、时延极致性能,相当于支撑百万张卡集群量级的性能需求。以及服务腾讯内部超600个应用,加持腾讯混元大模型,支持数十万张卡集群量级的运行,支撑日均调用次数达2亿次的高并发,智算套件可谓集公有云与腾讯自生态应用的能力于一身。而腾讯云智算套件的七大技术能力组合,也可以称得上千锤百炼磨“七剑”了。如今出鞘下云端,必然将掀起一场云厂商to B化的新热潮。

况且无论是由龙剑之高性能计算集群HCC、莫问剑之智能高性能网络IHN、青干剑之高性能分布式文件存储TurboFS、竞星剑之云原生调度编排TKE&qGPU、日月剑之训练加速TACO Train、舍神剑之推理加速TACO LLM,还是天瀑剑之集合通讯库TCCL,七剑齐出,数智争先,在公有云、分布式云领域都将锋芒毕露。

今有诗云:

千锤百炼磨七剑,顺势出鞘下云端。

云上全能全输出,数智赋能力争先。

骄阳盛夏,七剑出鞘,开箱即用,智算尝鲜。因此,我们有理由相信,腾讯云智算套件将让更多企业的数智化发展变得轻松起来。同时,一个全新的“Al Infra”正在公有云、分布式云中脱颖而出,这意味着腾讯云在AI与大模型时代将获得全新崛起,我们拭目以待。

目前,Al Infra的组成已经十分丰富与完善,除了强大的智算能力,还主要包括数据管理与提效(向量数据库+大数据ES)、开发增质(Cloud Studio +AI代码助手)等全面能力。最近,腾讯云整合在AI基础设施方面的技术积累,携手Gartner联名发布了业内首个《AI原生云建设与加速》白皮书,指引企业在AI原生时代找到价值、成本和风险的最佳平衡点,并探索未来创新的无限可能。

- END-

欢迎文末评论补充!

【全球云观察|全球存储观察 |科技明说|阿明观察】专注科技公司分析,用数据说话,带你看懂科技。本文和作者回复仅代表个人观点,不构成任何投资建议。

0 阅读:0

阿明观察

简介:带你读懂科技上市公司,用数据说话,成就不凡。