NVIDIA发布了开源推理软件NVIDIADynamo,旨在以高效率、低成本加速并扩展AI工厂中的AI推理模型。
作为NVIDIATriton™推理服务器的后续产品,NVIDIADynamo是一款全新的AI推理服务软件,旨在为部署推理AI模型的AI工厂最大化其token收益。
它协调并加速数千个GPU之间的推理通信,并使用分离服务将大语言模型(LLM)的处理阶段和生成阶段在不同GPU上分离开来。这使得每个阶段的特定需求可以进行单独优化,并确保更大程度地利用GPU资源。
在GPU数量相同的情况下,Dynamo可将NVIDIAHopper™平台上运行Llama模型的AI工厂性能和收益翻倍。
在由GB200NVL72机架组成的大型集群上运行DeepSeek-R1模型时,NVIDIADynamo的智能推理优化也可将每个GPU生成的token数量提高30倍以上。
NVIDIADynamo加入了一些功能,使其能够提高吞吐量的同时降低成本。它可以根据不断变化的请求数量和类型,动态添加、移除和重新分配GPU,并精确定位大型集群中的特定GPU,从而更大限度地减少响应计算和路由查询。
此外,它还可以将推理数据卸载到成本更低的显存和存储设备上,并在需要时快速检索这些数据,最大程度地降低推理成本。
NVIDIADynamo完全开源并支持PyTorch、SGLang、NVIDIATensorRT™-LLM和vLLM,使企业、初创公司和研究人员能够开发和优化在分离推理时部署AI模型的方法。
NVIDIADynamo包含四项关键创新,可降低推理服务成本并改善用户体验:
GPU规划器(GPUPlanner):一种规划引擎,可动态地添加和移除GPU,以适应不断变化的用户需求,从而避免GPU配置过度或不足。
智能路由器(SmartRouter):一个具备大语言模型(LLM)感知能力的路由器,它可以在大型GPU集群中引导请求的流向,从而最大程度减少因重复或重叠请求而导致的代价高昂的GPU重复计算,释放出GPU资源以响应新的请求。
低延迟通信库(Low-LatencyCommunicationLibrary):推理优化库,支持先进的GPU到GPU通信,并简化异构设备之间的复杂数据交换,从而加速数据传输。
显存管理器(MemoryManager):一种可在不影响用户体验的情况下,以智能的方式在低成本显存和存储设备上卸载及重新加载推理数据的引擎。
NVIDIADynamo将作为NVIDIANIM™微服务推出,并在未来版本中由NVIDIAAIEnterprise软件平台提供支持,具有生产级的安全性、支持和稳定性。