全面布局AI大基建,阿里云要建一条通往AGI的快捷通道

赵赛坡说科技 2024-09-22 03:00:22

如果说 2023 年的科技产业还在紧紧追赶 OpenAI 步伐,寄希望通过整合算力、数据,实现模型能力的快速迭代。那么进入 2024 年,生成式 AI 的竞争已经全面渗透到科技产业的方方面面,从应用到模型再到基础设施,生成式 AI 正在重塑整个产业链。

这成为 2024 年云栖大会的宏大产业背景。阿里云在大会上宣布,将围绕 AI 时代的新需求,全面升级从服务器到计算、存储、网络、数据处理、模型训练和推理平台的技术架构体系,让数据中心成为一台超级计算机,为每个 AI 和应用提供高性能、高效的算力服务。

与此同时,阿里云还更新并发布一系列通义大模型产品,其中开源模型 Qwen2.5 72B 版本,基础能力全面提升,性能与全球顶尖的 GPT-4o、LLaMA 3.1 405B 不相上下,再次引发全球开源模型社区的热议。

从押注 AI 大基建到持续发力开源大模型,阿里云看到了哪些产业信号?让我们先从产业视角看看新变化。

生成式 AI 时代的新需求

ChatGPT 的走红既是偶然,也是必然。技术层面,Transformer 架构早已发布多年,OpenAI 在这条路上摸索许久,GPT-2/3 都是科研小圈子的「玩具」。而通过对话服务的形式,上线一个面向普通消费者的产品,OpenAI 成功让 GPT 概念出圈,成为全球关注的焦点。

更深层次原因在于,彼时的科技巨头与风险资本,已厌倦了元宇宙、加密货币一系列不切实际的承诺,面对 ChatGPT 这样「惊艳世人」的产品,无不欣喜若狂,从微软、Google 这样的科技巨头到红杉、a16z 等资本巨鳄,开始疯狂投资 ChatGPT 或相关领域。

快速涌入的资本加速了市场的发展,当数据、算力的需求出现几何倍数的增长,科技产业的「齿轮」也在悄然变化:算力供应商的英伟达快速摆脱半导体的周期魔咒,开启了三位数增长率的狂飙之路;大小互联网公司内部散落的 AI 计算资源被全部集中到模型训练中,以 GPT-4 为标竿,新模型层出不穷;内容社区或平台摇身一变成了「数据农场主」……

更重要的变化是,现有的数字基础设施根本无法满足持续增加的需求。既是因为芯片供应短缺,无法提升算力,也是因为围绕大模型训练所需要的网络、数据处理能力、能源供给并未准备好。

2024 年开始,美国一众科技巨头相继开始投入基础设施建设,仅上半年,微软、Alphabet、亚马逊和 Meta 的资本支出总额已突破 1060 亿美元,较去年同期激增 50%,这其中绝大多数的钱都投向了诸如 GPU 计算、数据中心高速网络等基础设施领域。

上述公司在最新一季的财报发布后也异口同声传递出一个信号,未来 18 个月内还将继续加大投资力度。在中国,根据阿里云提供的数字,现在已有超过 50% 的新增算力需求来自 AI。

所有这些都折射出产业变革的方向。

一年前的 2023 云栖大会上,阿里云就表示中国有一半大模型公司跑在阿里云上,随着模型计算量和参数的不断扩大,算力、存(储)力的需求进一步提升,正是这样对产业需求近距离的观察,让阿里云意识到生成式 AI 时代的变化风向。

长期投资基础设施,阿里云的 AI 基建护城河初现

坦率来说,云计算公司天然具有 AI 基建的优势,毕竟拥有了庞大的数据中心和众多云服务运营经验。对阿里云来说,过去几年围绕服务器、计算、网络、存储等基础设施的长期投资,以及大量应用到实际场景中的自研技术,无疑让其拥有了更多底气。

以计算为例,阿里云此次推出面向 AI 深度优化的磐久服务器,支持多种国内/国际异构芯片,单机支持 16 卡 GPU 高速扩展互连,支持最高1.5TB 共享显存,结合自研核心硬件,能够为客户提供最高 3.2Tbps 的扩展网络带宽;可靠性方面,通过超钛金电源和 AI 算法故障预测,进一步降低故障率。

围绕计算场景,阿里云长期以来在加速计算、容器方面的投资正在构建起新的护城河。比如,通过软硬一体协同优化,全新发布的云基础设施处理器 CIPU2.0 实现了 400Gbps 的高吞吐硬件数据加速架构,并实现了与阿里云 AI 基础设施的全面整合,满足模型训练与推理的多重需求。

再比如,阿里云容器计算服务 ACS 此次的升级,在进一步降低算力成本的同时(最高降幅 55%),还首次推出 GPU 容器算力,通过拓扑感知调度,确保计算的亲和性与性能。

数据中心的网络能力也是关键领域,此前阿里云已经推出了为智算集群设计的 HPN7.0 网络系统,其架构的相关论文被业内认为是 AI 网络架构新范式。今年,HPN7.0 在性能和稳定性等方面均有提升,借助大量自研技术和全栈协同的能力,能够支持 3.2T RDMA 网络带宽,模型训练性能端到端提升 10%,集合通信性能提升十余倍。

除此之外,围绕大模型训练中的数据存储与模型开发的全链路,阿里云也推出了一系列全新或升级的方案。其中,将模型训练数据存储与原来云计算的对象存储服务打通,构建起了 Storage for AI 与 AI enable Storage 两大方案,能够大幅降低数据存储成本,还能优化数据管理能力,提升模型训练的效率。

而在 AI 开发平台 PAI 上,针对生成式 AI 推理成本大幅增加的现状, 推出「请求特征感知的LLM智能路由」、「异步&离线推理服务」、「训推一体化调度引擎」等产品,进一步提升了 AI 开发平台的灵活性和效率。

当基础大模型成为全新 AI 基础设施

基础大模型正在成为生成式 AI 时代的全新基础设施,而基于成本、安全还是可定制的考量,能力不断提升的开源模型也变得极具吸引力。

2023 年 8 月,阿里云成为国内首个加入自研大模型开源行列的科技公司,随后的一年多时间,陆续开源出几十款不同模态、不同尺寸的大模型,逐步形成了与 Meta 平起平坐的开源生态。

今年 6 月,阿里云发布开源模型 Qwen2–72B,性能超过当时最强的开源模型 Llama3–70B,也超过包括文心 4.0、豆包 pro、混元pro等在内的众多中国闭源大模型,成为全球开源模型的王者。

此次云栖大会上,新一代开源模型 Qwen2.5 系列正式发布,涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型,每个尺寸都有基础版本、指令跟随版本、量化版本,共计 100 多个模型,刷新了业界纪录,其中的旗舰模型 Qwen2.5–72B 性能超越 Llama 3.1 405B,再登全球开源大模型王座。

与新模型同时发布的,还有持续释放的大模型技术红利。随着模型算力成本的下降,通义千问三款主力模型再次大幅降价,最高降幅 85%,每百万 tokens 的价格低至三毛钱,这将大幅降低企业、开发者使用大模型的门槛,推动更多模型上的创新。

强大的基础模型能力赋予 Qwen 更具挑战性的用途,而一系列不同尺寸的模型,也满足了不同场景、设备的模型需求。全球众多企业、开发者将 Qwen 作为基座模型,开发出众多模型和应用,比如蚂蚁集团的 CodeFuse-Qwen 是基于Qwen 的代码领域专属模型、越南开发者使用 Qwen 开发越南语大模等,而在开源社区帮助下,Qwen 也拥有了更多应用场景,适配 CPU 和 macOS 的芯片等都不在话下。

公开数据显示,截至 2024 年 9 月中旬,阿里云开源模型 Qwen 系列的全球下载量已经超过 4000万,通义原生模型和衍生模型总数超过 5 万个,成为仅次于 Llama 的世界级模型生态,在全球众多开发者和企业的努力下,通义大模型已经深入千行百业,成为行业 AI 创新的底座。

写在最后:通往 AGI 的「修路人」

毫无疑问,ChatGPT 开启了一个迈向 AGI(通用人工智能)的新时代,这是人类几百年来追求类人智能的坚实一步,刚刚发布的 OpenAI o1 为语言模型增加了推理能力,也让诸如 AGI 或「奇点」变得不再遥远。

然而所有「造梦者」的故事都需要脚踏实地的工作,正如阿里巴巴集团CEO、阿里云智能集团董事长兼 CEO 吴泳铭所言,要实现真正的 AGI,下一代模型需要具备更大规模、更通用、更泛化的知识体系,同时将具备更复杂更多层次的逻辑推理能力。

要训练出如此强大的模型,产业还需要更强大的基础设施。就像修建一条通往未来的高速公路。我们需要更强大的计算集群、更高效的算法、更快速的网络,以及性能更好、价格更低的基础模型。

这些「修路人」的工作可能不如 AI 突破那样令人瞩目,却是实现 AGI 梦想不可或缺的基石。

阿里云就是这样的「修路人」。

0 阅读:0

赵赛坡说科技

简介:感谢大家的关注