掌上超级电脑？戳穿ProjectDigits的文字游戏

今年CES最重磅的官宣莫过于英伟达发布的RXT 50系列显卡，但在老黄的演讲里，其实并不仅仅只说了显卡，他还重点提到了不少关于人工智能的新工具，其中就有我们本期的主角——Project Digits，一个被老黄拿在手心里的“桌面AI超级电脑”，这小东西真有那么神奇么？

统一内存，容量大但带宽存疑

现在大模型应用的瓶颈并不在算力上，而在显存大小和带宽上，我们以某个70b参数量的4bit量化模型为例，模型大小约为40GB，这就意味着GPU要处理40GB的数据，而如果按传统的专用显存，即便是最新的RTX 5090也无法容下这个大模型。

而Project Digits最大的特色就是采用了128GB的LPDDR5X统一内存，也就是CPU和GPU共享，如此以来，这个40GB的模型就能顺利地部署在Project Digits上。

值得注意的是，统一内存设计不是英伟达首创，苹果M1才是第一例。与此同时，老黄还声称Project Digits可以运行200b参数量大模型，但这就引来了第二个问题：根据英伟达的官方数据，Project Digits采用的Grace CPU内存带宽只有512GB/s，如果是这个参数，那带宽无疑将成为瓶颈。

Project Digits的体型十分小巧，基本就是一个迷你PC的尺寸

为什么这么说？因为大语言模型每生成一个token，也就是每生成一个字，就需要将整个模型扫一遍来进行计算，所以扫描的速度就决定了生成文本的速度上限。

还是以刚刚那个70b参数量4bit量化40GB大模型为例，如果是512GB/s的带宽，用简单的除法就能算出512/40=12.8，也就是Project Digits在运行这个体量的大模型时，只能做到12.8 token/s，按老黄说的200b参数量大模型，即便也是4bit量化，也有足足110GB以上的体积，只能实现不到5 token/s，剩下的十来个GB也装不了多少KV Cache，上下文能力也会大打折扣。

作为参考，以AI编程为例，10 token/s以下的速度基本就失去了实用价值，20 token/s以内马马虎虎能用，因为AI会自说自话地分析一大堆，所以有时候甚至会觉得等它写还不如自己写。而真正能起到协助工作的水准，输出效率至少要30~40 token/s以上。所以Project Digits的内存带宽如果真是512GB/s的话，200b参数大模型就真的只是“能运行”的程度，即便是带宽翻番，从每秒token数量来说也很难说得上实用。

多机互联才是最终目的

带宽之余，我们还是要看看Project Digits的算力水平，官方声称内置的Blackwell架构GPU算力达到了1PFLOP，听上去很夸张对不对？但实际上是FP4精度的AI算力，和新发布的RTX 5070完全一致。而在人工智能领域，更常见的大模型精度是FP8和FP16，所以它的实用算力达不到这么夸张的数值。

而且前面我们也分析了，大模型的应用瓶颈主要在显存容量和带宽上，没有使用HBM可能也是为了节约成本，毕竟在“刀法”这方面，老黄从不会让人失望，而且Project Digits的定位也确实填补了英伟达现有产品线的空缺。

统一内存+多机互联，让Project Digits成为一个很特别的存在

值得一提的是，Project Digits在玩法上倒是留了一手：它可以通过英伟达的ConnectX进行至少双机互联，虽然官方只说了双机，但实际上用以太网连个七八台应该不在话下，而英伟达ConnectX-7的带宽可以到400Gbps，双网口的设计可以让它们一个接一个，组建环形拓扑以提高数据传输效率和稳定性。

以八台为例，这就是1TB的共享内存，3000美元一台的成本，相较组建同等显存容量的算力卡或游戏卡要便宜很多，适合不追求绝对速度的教育、研究和企业级大模型推理应用，“刀法”的确精准。

从业内分析来看，Project Digits的主要竞争对手就是苹果的Mac Studio，单就深度学习的生态而言，英伟达的优势十分明显，同时这其实也是一个信号：当Project Digits，以及AMD对标的Strix Halo推出后，大模型的推理基本上就不再需要买游戏显卡来“大材小用”了，对于很多预算不高的企业和实验室来说是一个很不错的考虑对象。