中兴通讯资深算法专家刘涛:大模型推理优化关键技术

知士问答啊 2024-12-26 09:57:18
中兴通讯资深算法专家刘涛:大模型推理优化关键技术

来自能源的革命的雪球专栏

这篇文章主要讨论了大模型推理优化的关键技术,以及中兴通讯在这一领域的研发成果和应用。以下是文章的关键技术要点和中兴通讯的成果概述:

关键技术要点:

内存管理:

使用KVCache技术减少重复计算,将计算复杂度从O(n^2)降低到O(n)。

Paged Attention技术通过分页内存管理,节约显存,支持更大的batch-size,提升吞吐率。

算子融合:

减少计算过程中的访存次数和统一计算架构(CUDA) Kernel的启动耗时。

针对Transformer结构特点,算子融合主要分为归一化层和QKV横向融合,自注意力计算融合,残差连接、归一化层、全连接层和激活层融合,偏置加法和残差连接融合。

模型压缩:

包括量化、权重剪枝等技术,以减少模型大小和计算量,提高运行效率。

并行推理:

使用模型并行和流水线并行来处理超过单一计算设备容量的大模型。

模型并行可以节省显存资源、降低单用户时延。

服务调度优化:

通过Continuous Batching和Dynamic Batching提高吞吐量。

异步Tokenize/Detokenize通过多线程方式降低时延。

新兴技术:

投机采样作为一种并行推测解码算法,通过小模型快速生成和大模型验证来提升推理效率。

中兴通讯的成果:

星云编程大模型:

通过技术优化,实现显存节省70%,单GPU卡吞吐量提升3倍,推理时延降低一半,推理成本降低75%。

大模型推理集群:

中兴通讯内部建设了大模型推理集群,集成到研发IDE环境中,每日超过1.3万员工使用,日生成代码超过百万行。

行业应用:

星云大模型已在城市治理、工业、矿山、交通等多个行业应用,通过量化压缩技术降低资源占用,扩大了大模型的应用范围。

商业价值探索:

中兴通讯在探索大模型的商业价值,面对算力成本上升的挑战,致力于实现更低成本算力和更高效率算法。

技术趋势:

尽管ChatGPT的热度减退,但大模型的发展和应用趋势在中长期内不会改变,中兴通讯将继续在这一领域进行研发和应用。

这篇文章提供了大模型推理优化的全面技术概览,并展示了中兴通讯在该领域的创新和实践。$中兴通讯(SZ000063)$ $赛力斯(SH601127)$ $中远海控(SH601919)$ #中科曙光# #601360三六零# #万丰奥威#

作者:能源的革命链接:https://xueqiu.com/7659667127/318187909来源:雪球著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。风险提示:本文所提到的观点仅代表个人的意见,所涉及标的不作推荐,据此买卖,风险自负。

0 阅读:75
知士问答啊

知士问答啊

感谢大家的关注