今年CES最重磅的官宣莫过于英伟达发布的RXT 50系列显卡,但在老黄的演讲里,其实并不仅仅只说了显卡,他还重点提到了不少关于人工智能的新工具,其中就有我们本期的主角——Project Digits,一个被老黄拿在手心里的“桌面AI超级电脑”,这小东西真有那么神奇么?
01
统一内存,容量大但带宽存疑
现在大模型应用的瓶颈并不在算力上,而在显存大小和带宽上,我们以某个70b参数量的4bit量化模型为例,模型大小约为40GB,这就意味着GPU要处理40GB的数据,而如果按传统的专用显存,即便是最新的RTX 5090也无法容下这个大模型。
而Project Digits最大的特色就是采用了128GB的LPDDR5X统一内存,也就是CPU和GPU共享,如此以来,这个40GB的模型就能顺利地部署在Project Digits上。
值得注意的是,统一内存设计不是英伟达首创,苹果M1才是第一例。与此同时,老黄还声称Project Digits可以运行200b参数量大模型,但这就引来了第二个问题:根据英伟达的官方数据,Project Digits采用的Grace CPU内存带宽只有512GB/s,如果是这个参数,那带宽无疑将成为瓶颈。
Project Digits的体型十分小巧,基本就是一个迷你PC的尺寸
为什么这么说?因为大语言模型每生成一个token,也就是每生成一个字,就需要将整个模型扫一遍来进行计算,所以扫描的速度就决定了生成文本的速度上限。
还是以刚刚那个70b参数量4bit量化40GB大模型为例,如果是512GB/s的带宽,用简单的除法就能算出512/40=12.8,也就是Project Digits在运行这个体量的大模型时,只能做到12.8 token/s,按老黄说的200b参数量大模型,即便也是4bit量化,也有足足110GB以上的体积,只能实现不到5 token/s,剩下的十来个GB也装不了多少KV Cache,上下文能力也会大打折扣。
作为参考,以AI编程为例,10 token/s以下的速度基本就失去了实用价值,20 token/s以内马马虎虎能用,因为AI会自说自话地分析一大堆,所以有时候甚至会觉得等它写还不如自己写。而真正能起到协助工作的水准,输出效率至少要30~40 token/s以上。所以Project Digits的内存带宽如果真是512GB/s的话,200b参数大模型就真的只是“能运行”的程度,即便是带宽翻番,从每秒token数量来说也很难说得上实用。
02
多机互联才是最终目的
带宽之余,我们还是要看看Project Digits的算力水平,官方声称内置的Blackwell架构GPU算力达到了1PFLOP,听上去很夸张对不对?但实际上是FP4精度的AI算力,和新发布的RTX 5070完全一致。而在人工智能领域,更常见的大模型精度是FP8和FP16,所以它的实用算力达不到这么夸张的数值。
而且前面我们也分析了,大模型的应用瓶颈主要在显存容量和带宽上,没有使用HBM可能也是为了节约成本,毕竟在“刀法”这方面,老黄从不会让人失望,而且Project Digits的定位也确实填补了英伟达现有产品线的空缺。
统一内存+多机互联,让Project Digits成为一个很特别的存在
值得一提的是,Project Digits在玩法上倒是留了一手:它可以通过英伟达的ConnectX进行至少双机互联,虽然官方只说了双机,但实际上用以太网连个七八台应该不在话下,而英伟达ConnectX-7的带宽可以到400Gbps,双网口的设计可以让它们一个接一个,组建环形拓扑以提高数据传输效率和稳定性。
以八台为例,这就是1TB的共享内存,3000美元一台的成本,相较组建同等显存容量的算力卡或游戏卡要便宜很多,适合不追求绝对速度的教育、研究和企业级大模型推理应用,“刀法”的确精准。
从业内分析来看,Project Digits的主要竞争对手就是苹果的Mac Studio,单就深度学习的生态而言,英伟达的优势十分明显,同时这其实也是一个信号:当Project Digits,以及AMD对标的Strix Halo推出后,大模型的推理基本上就不再需要买游戏显卡来“大材小用”了,对于很多预算不高的企业和实验室来说是一个很不错的考虑对象。