苹果+英伟达,加速AppleIntelligence训练

果粉Fans 2024-12-20 21:16:23

苹果公司最新的机器学习研究可能会加速 Apple Intelligence 的模型创建,通过提出一种技术,几乎将使用 Nvidia GPU 生成 token 的速度提升到三倍。

创建大型语言模型 (LLMs) 的一个主要问题是,在为诸如 Apple Intelligence 等提供 AI 功能的工具和应用生成 LLM 时存在低效的问题。训练机器学习模型是一个资源密集型且缓慢的过程,通常需要购买更多的硬件并承担更高的能源成本来应对。

2024 年初,苹果发布并开源了一种名为 Recurrent Drafter(ReDrafter)的方法,利用推测解码来提升训练性能。这种方法使用一种递归神经网络(RNN)草稿模型,结合了束搜索和动态树注意力,以预测和验证来自多个路径的草稿 token。

与典型的自回归 token 生成技术相比,这种方法在每个生成步骤中将 LLM 的 token 生成速度提高了最多 3.5 倍。在苹果机器学习研究网站的一篇文章中,苹果详细说明了在现有 Apple Silicon 研究的基础上,这一过程并未止步。

周三发布的新报告描述了团队如何将 ReDrafter 的研究应用于使其在 Nvidia GPU 上可投入生产。

Nvidia GPU 通常用于 LLM 生成的服务器中,但高性能硬件的成本往往不菲。多 GPU 服务器的硬件成本通常超过 25 万美元,这还不包括所需的基础设施或其他相关费用。苹果与 Nvidia 合作,将 ReDrafter 集成到 Nvidia TensorRT-LLM 推理加速框架中。

由于 ReDrafter 使用了其他推测解码方法所未使用的操作,Nvidia 需要添加额外的元素以使其起作用。通过这种集成,使用 Nvidia GPU 的机器学习开发人员现在可以在生产中使用 ReDrafter 的加速 token 生成,而不仅限于使用 Apple Silicon 的用户。

在对 Nvidia GPU 上的十亿级参数生产模型进行基准测试后,结果显示在贪婪编码的情况下,每秒生成的 token 数量提高了 2.7 倍。这一进展的意义在于,此过程可以降低用户的延迟,同时减少所需的硬件资源。

简言之,用户可以期待来自云端查询的更快响应,而公司则能够在支出更少的情况下提供更多服务。Nvidia 在其技术博客中表示,这一合作使 TensorRT-LLM“更加强大灵活,使 LLM 社区能够创新更复杂的模型并轻松部署。”

报告的发布恰逢苹果公开确认正在研究使用亚马逊 Trainium2 芯片训练 Apple Intelligence 功能模型的潜力。当时,苹果预计使用这些芯片进行预训练时,效率将提高 50%。

0 阅读:15

果粉Fans

简介:爱科技,爱生活,不爱工作