Apple Intelligence 旗下的生成式 AI 功能已经避开了利用 NVIDIA GPU 来处理基于云的输入,这家总部位于加利福尼亚的巨头在其服务器中坚持使用其定制芯片,最终将成为被未发布的 M4 Ultra 取代以加速其大型语言模型。然而,这家 iPhone 制造商最近的一篇博文显示,如果这意味着两个实体有一个共同的目标,Apple 及其工程师并不回避与 NVIDIA 合作;使用 LLM 实现更快的文本生成性能。
简称“ReDrafter”,新的博客文章指出,这种技术结合了两种方法;一个是 beam search,另一个是 Tree Attention。这两种技术都是为提高文本生成性能而设计的,经过 Apple 自己的研究,它与 NVIDIA 合作,将 ReDrafter 集成到 TensorRT-LLM 中,这是一种帮助大型语言模型在 NVIDIA GPU 上运行得更快的工具。另一项改进是,该技术可以在减少功耗的同时减少延迟。
“这项研究工作显示出强大的结果,但其更大的影响来自于应用于生产以加速 LLM 推理。为了使这一进步为 NVIDIA GPU 做好生产准备,我们与 NVIDIA 合作,将 ReDrafter 集成到 NVIDIA TensorRT-LLM 推理加速框架中。
尽管 TensorRT-LLM 支持许多开源 LLM 和 Medusa 推测解码方法,但 ReDrafter 的光束搜索和树注意力算法依赖于以前应用程序中从未使用过的运算符。为了实现 ReDrafter 的集成, NVIDIA 添加了新的运算符或公开了现有运算符,这大大提高了 TensorRT-LLM 适应复杂模型和解码方法的能力。使用 NVIDIA GPU 的 ML 开发人员现在可以轻松地从 ReDrafter 使用 TensorRT-LLM 为其生产 LLM 应用程序加速的令牌生成中受益。
在 NVIDIA GPU 上对数百亿个参数的生产模型进行基准测试时,使用 NVIDIA TensorRT-LLM 推理加速框架和 ReDrafter,我们看到贪婪解码的每秒生成令牌的速度提高了 2.7 倍。这些基准测试结果表明,这项技术可以显著减少用户可能遇到的延迟,同时还能使用更少的 GPU 和消耗更少的电力。
虽然这次合作证明 Apple 和 NVIDIA 达成协议的机会很小,但我们坚信,由于科技巨头的过去历史,这样的合作伙伴关系不会实现。我们应该会看到像这样的短期标签团队在未来再次形成,但有意义的业务关系似乎已经消失了。