Nvidia创办人黄仁勋承认,Nvidia最新Blackwell GPU在设计上出现缺陷,导致生产率大幅下降,但问题已于数月前修正。经改良后的B100/B200处理器版本现已准备进入量产阶段,而合作伙伴台积电也协助Nvidia解决相关问题。根据Reuters报道,黄仁勋强调设计问题完全源于Nvidia自身。
黄仁勋指出Blackwell设计错误导致生产良率低下, 100%是Nvidia的责任(图片来源:TOM's Hardware)
黄仁勋指出:“Blackwell的设计确实有缺陷,功能上没有问题,但设计上的错误导致生产良率低下, 100%是Nvidia的责任。”部分媒体曾误指责台积电导致此问题,并暗示Nvidia和台积电之间的合作关系可能受损。对此,黄仁勋反驳并否认了相关传言,称其为“假新闻”,表示Nvidia的设计失误才是问题根源。
针对Blackwell B100和B200 GPU的技术细节,处理器使用台积电的CoWoS-L封装技术,并通过具备本地硅互联(LSI)桥接的RDL中介层连接双芯片,以达到每秒约10 TB的数据传输速度。而由于GPU芯片、LSI桥接、RDL中介层和主板基材之间的热膨胀系数不一致,导致该系统出现变形失效。Nvidia针对问题修改了GPU硅片的顶层金属层和凸点设计,以提升生产良率,并需使用新的掩膜图案完成修复。
半导体领域中生产良率低下和功能性缺陷并非罕见,通常公司会通过修改一层或数层金属层来修正问题,并称之为“步进”更新。例如Intel的Sapphire Rapids曾因500项问题进行多达12次步进修正,其中5次为基本重新设计。每一次步进更新需耗时约三个月完成,包括问题识别、修复以及生产新版本的处理器,因此Nvidia和台积电对于Blackwell GPU问题的快速修正速度实属罕见。
目前修正后的Blackwell GPU将于10月底进入量产,预计明年初即可出货至市场,仍属于Nvidia 2025财政年度。Nvidia于今年初披露,为了满足AWS、Google和Microsoft等大型云计算服务供应商对Blackwell GPU的需求,2024年内仍会出货部分最初生产良率较低的Blackwell处理器。惟尚不清楚2024年将有多少Blackwell GPU出货至数据中心。
数据及图片来源:TOM's Hardware、BlockTempo