Nvidia桌面AI小盒子,配备大GPU/CPU内存

拥抱科技有未来 2025-01-13 10:18:33

在2025年的CES(消费电子展)上,英伟达(Nvidia)宣布与联发科合作开发了一款价值3000美元的新台式电脑,该电脑由基于Arm的Grace CPU和Blackwell GPU Superchip提供动力。新系统被称为“DIGITS项目(DIGITS Project)”(与Nvidia的深度学习GPU训练系统DIGITS同名)。该平台为AI和HPC市场提供了一系列新功能。

DIGITS Project搭载了新的Nvidia GB10 Grace Blackwell超级芯片,具有20个Arm内核,旨在为原型设计、微调和运行大型AI模型提供“Petaflop”(FP4精度)的GPU-AI计算性能。

自G8x系列显卡(2006年)发布以来,Nvidia在提供适用于整个GPU系列的CUDA工具和库方面做得很好。使用低成本消费级显卡进行CUDA开发的能力有助于创建一个充满活力的应用生态系统。由于高性能GPU的成本和稀缺性,DIGITS项目应该能够实现更多基于LLM的软件开发。与低成本GPU一样,在桌面上运行、配置和微调开放式转换器模型(如Llama)的能力应该对开发人员具有吸引力。例如,通过提供128GB的内存,DIGITS系统将有助于克服许多低成本消费显卡的24GB限制。

新的GB10超级芯片配备了Nvidia Blackwell GPU,该GPU具有最新一代CUDA内核和第五代Tensor内核,通过NVLink-C2C芯片间互连连接到高性能的Nvidia Grace类CPU,该CPU包括20个节能的Arm内核(10个Arm Cortex-X925和10个Cortex-A725 CPU内核)。虽然没有可用的规格,但GB10的GPU端的性能被认为不如Grace Blackwell GB200。要清楚;GB10不是分箱或激光修整的GB200。GB200超级芯片有72个Arm Neoverse V2内核和两个B200 Tensor Core GPU。

DIGITS系统的定义特征是CPU和GPU之间128GB(LPDDR5x)的统一一致内存。当在GPU上运行AI或HPC模型时,这种内存大小打破了“GPU内存屏障”;例如,80GB Nvidia A100的当前市场价格从18000美元到20000美元不等。有了统一、连贯的内存,CPU和GPU之间的PCIe传输瓶颈也被消除了。

该系统还提供高达4TB的NVMe存储。在电源方面,Nvidia提到了一个标准电源插座。没有具体的功率要求,但尺寸和设计可能会提供一些线索。首先,与Mac mini系统一样,小尺寸表明产生的热量不能那么高。其次,根据CES展厅的图像,没有风扇通风口或切口。外壳的前后似乎有一种海绵状材料,可以提供空气流动,并可以作为整个系统的过滤器。由于热设计表示功率,功率表示性能,DIGITS系统可能不是一个为最大性能(和功耗)而调整的尖叫器,而是一个凉爽、安静、熟练的AI桌面系统,具有优化的内存架构。

如前所述,该系统非常小,DIGITS系统在桌面上的放大视图。(来源:Nvidia)

桌面AI

Nvidia报告称,开发人员可以运行多达2000亿个参数的大型语言模型,以加速人工智能创新。此外,使用Nvidia ConnectX网络,两台Project DIGITS AI超级计算机可以连接起来运行多达4050亿个参数模型。借助DIGITS项目,用户可以使用自己的桌面系统在模型上开发和运行推理,然后在加速的云或数据中心基础设施上无缝部署模型。

Nvidia创始人兼首席执行官黄仁勋表示:“人工智能将成为每个行业每个应用程序的主流。通过Project DIGITS,Grace Blackwell超级芯片将惠及数百万开发者。”“将人工智能超级计算机放在每个数据科学家、人工智能研究人员和学生的桌子上,使他们能够参与并塑造人工智能时代。”

Nvidia创始人兼CEO黄仁勋在CES主题演讲中展示DIGITS

这些系统不是用于训练模型的,而是设计用于在本地运行量化的LLM(减小模型权重的精度大小)。Nvidia引用的1 PetaFLOP性能数字适用于FP4精度权重(4位或16个可能的数字)

许多模型可以在这个级别上充分运行,但根据模型的大小和可用内存,量化可以增加到FP8、FP16或更高,以获得更好的结果。例如,对Llama-3-70B型号使用FP8精度权重需要每个参数一个字节或大约70GB的内存。将精度减半到FP4将使内存减少到35GB,但增加到FP32将需要140GB,这比DIGITS系统提供的要大。

可能不太为人所知的是,DIGITS并不是第一款台式Nvidia系统。2024年,GPTshop.ai推出了基于GH200的桌面系统。与DIGITS项目不同,GPTshop系统在台式机箱中提供了GH200 Grace Hopper超级芯片和GB200 Grace Blackwell超级芯片的全部重量。性能的提高也带来了更高的成本。

将DIGITS Project系统用于桌面HPC(高性能计算)可能是一种有趣的方法。除了运行更大的AI模型外,集成的CPU-GPU全局内存对HPC应用程序非常有益。

以类似的方式,许多HPC应用程序不得不找到绕过常见PCIe连接视频卡的小内存域的方法。使用多个卡或MPI有助于分散应用程序,但HPC中最有利的因素总是更多的内存。

当然,需要基准来确定DIGITS项目是否完全适用于桌面HPC,但还有另一种可能性:“构建一个这样的集群。”当然,集群是由服务器和(多个)连接PCEe的GPU卡构建的。然而,一个小型、中等功率、完全集成的全局内存CPU-GPU可能会成为一个更平衡、更具吸引力的集群构建块。额外的好处是:他们已经运行Linux,并内置了ConnectX网络。

0 阅读:25
拥抱科技有未来

拥抱科技有未来

感谢大家的关注