混和式AI部署，完美解决AI手机平台难题

AI人工智能随着 ChatGPT 的火热，生成式 AI 更是在全球掀起了人工智能的新浪潮。它让我们看到人工智能变革世界的新方式。

我们知道，AI人工智能涉及到训练(Training)和推断(Inference)：训练也就是搜索和求解模型最优参数的阶段；当模型参数已经求解出来，使用和部署模型，则称为推断阶段。

大模型的训练通过对海量数据的学习，神经网络找到海量数据集中的给定的输入与结果之间的关系（搭建模型），并最终确定决定该关系的变量中所有参数的权重（Weights）和偏差（Bias）。训练需要分 batch 多次迭代，inference 只需要分 batch 执行一次计算流图。训练是计算密集型的，以 GPU 资源为主，CPU 主要用于通信，参数更新等低消耗的任务。单次训练任务计算量大，需要用分布式系统才能较快得到结果。训练过程主要关心分布式集群的资源利用率。

生成式的AI大模型是一种双向的基于Transformer的自监督语言模型，通过大规模预训练无标注数据来学习通用的语言表示，从而能够在多种下游任务，如专名识别、词性标记和问题回答中进行微调。AI大模型就是利用这种大规模无标注数据通过自监督学习进行预训练，再利用下游任务的有标注数据进行自监督学习以微调模型参数，实现下游任务的适配。

生成式AI大模型训练十分消耗资源。曾在谷歌和斯坦福大学做过研究的现任百度硅谷实验室首席科学家吴恩达说训练一个百度的汉语语音识别模型不仅需要 4 TB 的训练数据，而且在整个训练周期中还需要 20 exaflops（百亿亿次浮点运算）的计算。众多大模型应用和产品涌现，这些拥有数十亿参数的众多生成式 AI 模型对计算基础设施提出了极高的需求。

NVIDIA发表的文章《Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM》中对不同参数GPT模型算力需求的计算方法及 NVIDIA A100在模型训练过程的参数，对以GPT-3.5 175B为代表的大模型的训练算力需求进行测算，测算主要基于以下关键假设：①考虑到大模型训练的时间要求，假设模型单次训练时间为30天，即每年可进行约12次训练；②训练阶段每个A100吞吐效率为48%。此外，我们假设每台AI服务器均配有8张A100。由此测算，单个GPT-3.5 175B参数量AI大模型训练而新增的NVIDIA A100需求空间为1080个，新增的AI服务器需求为135台。

当模型参数已经求解出来后，就可以使用和布署模型了，也就是推理、推断阶段，这才是真正的AI大模型应用。推理是指，通过使用训练后的模型，把神经网络在训练中学习到的能力（搭建的模型）应用到之后工作中去，例如图片识别、数据分析等。

推理是如何被使用的？只要打开你的智能手机就好了。推理可被用于将深度学习应用到语音识别和分类照片等各种各样的任务上。

第一个方法着眼于神经网络中训练之后就不再激活的部件。这些部分已不再被需要，可以被「修剪」掉。

第二个方法是寻找方法将神经网络的多个层融合成一个单一的计算步骤。

这类似于数字图像的压缩。设计师可能设计了这些巨大的、美丽的、数百万像素宽和高的图像，但如果要将它们放到网上，就需要将它们转换成 jpeg 格式。对人眼来说，它们看起来基本上完全相同，只是分辨率不一样。推理也是类似的，你可以得到预测的几乎同样的准确度，但简化、压缩和优化可以提升运行时的性能。

这意味着我们可以一直使用推理。你的智能手机的声控助手使用了推理，谷歌的语音识别、图像搜索和垃圾邮件过滤应用也都是用了推理。百度也在语音识别、恶意程序检测和垃圾消息过滤中使用了推理。Facebook 的图像识别和亚马逊与 Netflix 的推荐引擎全都依赖于推理。

具备并行计算（同时进行多个计算）能力的 GPU 既擅长训练，也擅长推理。使用 GPU 训练的系统可以让计算机在某些案例中实现超过人类水平的模式识别和对象检测。

训练完成后，该网络可被部署在需要「推理」（对数据分类以「推理」出一个结果）的领域中。

所以推理时的需求就简单了，算力和显存平衡就可以，很多时候推理无需训练也能发生，只要模型能装的进去，把算力跑慢就能胜任，而这也正是消费级芯片完全能够做到的。

也就是说，AI大模型成功研发出来之后，完全可以通过一系列的技术，如量化（quantization）和定点数计算。现在人们已经证明，FP32训练的参数可以改成4位/比特整数（INT4）做推理，没有显著精度损失，甚至训练时候采用INT4也可以，这也AI大模型运行在端侧打下了平台基础。