从2022 年下半年开始,生成式 AI 爆火的同时,这带来了企业对AI大模型能力和训练服务的需求,仅在国内,现在就至少有数十家创业公司和中小公司在自制复杂大语言模型,他们都得自己采购GPU,或者从云计算平台租 GPU,从而完成AI模型的开发、训练到应用场景。
A100 、H100 则既有单卡高算力,又有提升卡间数据传输的高带宽。A100 的 FP32(指用 4 字节进行编码存储的计算)算力达到 19.5 TFLOPS(1 TFLOPS 即每秒进行一万亿次浮点运算),H100 的 FP32 算力134 TFLOPS,是竞品 AMD MI250 的约 4 倍。
A100、H100 还提供高效数据传输能力,尽可能减少算力闲置。英伟达自2014年起陆续推出的 NVLink、NVSwitch 等通信协议技术。用在 H100 上的第四代 NVLink 可将同一服务器内的 GPU 双向通信带宽提升至 900 GB/s(每秒传输 900GB 数据),是最新一代 PCle(一种点对点高速串行传输标准)的 7 倍多。
2022年美国商务部对 GPU 的出口规定也正是卡在算力和带宽这两条线上:算力上线为 4800 TOPS,带宽上线为 600 GB/s。对中国市场发布了A800 和H800 GPU卡,其中H100/800 为 4 nm 制程,A100/800 为 7 nm 制程,均由台积电代工生产。A800 和 H800 算力和原版相当,但带宽打折。A800 的带宽从 A100 的 600GB/s 降为 400GB/s,H800 的具体参数尚未公开,它的带宽只有 H100(900 GB/s) 的约一半,执行同样的 AI 任务时,H800 会比 H100 多花 10% -30% 的时间,H800 的训练效果不如 A100,但更贵。即使如此,A800 和 H800 的性能依然超过其他大公司和创业公司的同类产品。受限于性能和更专用的架构,各公司推出的 AI 芯片或 GPU 芯片,现在主要用来做 AI 推理,难以胜任大模型预训练。性能差距外,英伟达的更深护城河是软件生态。英伟达在2006年,推出的计算平台 CUDA是一个并行计算软件引擎,开发者可使用 CUDA 更高效地进行 AI 训练和推理,用好 GPU 算力。CUDA 今天已成为 AI 基础设施,主流的 AI 框架、库、工具都以 CUDA 为基础进行开发。
英伟达之外的 GPU 和 AI 芯片如要接入 CUDA,需要自己提供适配软件,但只有 CUDA 部分性能,更新迭代也更慢。PyTorch 等 AI 框架正试图打破 CUDA 的软件生态垄断,提供更多软件能力以支持其它厂商的 GPU,但这对开发者吸引力有限。英伟达 GPU 在AI大模型场景下的不可替代性,源自大模型的训练机制,其核心步骤是预训练(pre-training)和微调(fine-tuning),前者是打基座,相当于接受通识教育至大学毕业;后者则是针对具体场景和任务做优化,以提升工作表现。
大模型的庞大计算需求下,用更多低性能 GPU 共同组成算力不是最优方案。在使用多个 GPU 训练时,需要在芯片与芯片间传输数据、同步参数信息,这时部分 GPU 会闲置,无法一直饱和工作。所以单卡性能越低,使用的卡越多,算力损耗就越大。OpenAI 用 1 万块 V100 训练 GPT-3 时的算力利用率不到 50%。
据英伟达官网,A100 售价为 1 万美元/张(约 7.1 万元人民币),H100 售价为 3.6 万美元/张(约 25.7 万元人民币);A800 和 H800 售价略低于原版。
OpenAI 训练 1750 亿参数的 GPT-3 时用了 1 万张 V100卡 ,训练时长未公开;如果用A100 来训练 GPT-3 ,需要 1024 张 A100 训练 1 个月,A100 相比 V100 有 4.3 倍性能提升。
国内其他GPU 厂商的芯片和服务报价比英伟达更低,也承诺提供更及时的服务,但他们判断,使用其它 GPU 的整体训练和开发成本会高于英伟达,还得承担结果的不确定性和花更多时间。
国内GPU应用现状2022 年全年英伟达数据中心 GPU 在中国的销售额约为 100 亿元人民币。中国大科技公司采购 GPU 更为急迫。
以百度为例,它今年向英伟达购买了上万张GPU卡;
阿里也曾在 2019-2022 年积极采购 GPU,型号主要是 V100 和早期发布的 T4,数量在上万张规模。阿里云也在今年 5 月对内提出把 “智算战役” 作为今年的头号战役,同时再次强调 MaaS(模型即服务)是未来云计算趋势,在开放自研的通用基础模型 “通义千问” 测试之外,还发布了一系列帮助客户在云上训练、使用大模型的工具。
字节跳动2022年订购了超过 10 亿美元的 GPU卡,包括 A100 与 H800 总计有 10 万张,用于训练AI大模型。
腾讯则率先宣布已用上 H800,腾讯云在今年 3 月发布的新版高性能计算服务中已使用了 H800,并称这是国内首发。目前这一服务已对企业客户开放测试申请,这快于大部分中国公司的进度。
美团在2023年一季度左右开始开发大模型。主要采用了80G 显存顶配版 A100,优先供给大模型。
B 站对大模型也有规划。此前已储备了数百块 GPU。
总结在上一波以图像识别为代表的深度学习热潮中,中国 AI 软件能力比肩全球最前沿水平;国内大厂在奋力赶超这一轮Chat GPT人工智能热潮,并尽快推出垂直行业的应用。大模型是模型与算法层的又一次大进展,算力是目前的难点——设计与制造芯片需要更长的积累,涉及漫长供应链和浩繁专利壁垒。国内大厂必须尽快获得足够多的先进算力。在这轮热潮使第一批公司振奋或失望前,围绕 GPU 的抢夺不会停止。
对此,您有什么看法见解?欢迎在评论区留言探讨和分享。