AMDMI300X被指存在软件缺陷,使用体验远不如英伟达

芯智讯 2024-12-25 11:02:37

12月24日消息,半导体研究机构Semianalysis在进行了5个月的调查后发现,AMD最新的AI芯片MI300X因为存在重大软件缺陷,导致性能不如预期,难以撼动英伟达(Nvidia)的市场主导地位。

Semianalysis在研究报告中指出,虽然MI300X规格看来令人印象深刻,拥有192 GB HBM3內存,可以提供1,307 TeraFLOPS的FP16精度算力。而英伟达H100 的算力只有989 TeraFLOPS,只配备了80 GB HBM內存,H200也只配备了141 GB HBM内存。相比之下,AMD MI300X硬件配置更高,定价也更便宜,这也意味着MI300X更具性价比。

但是Semianalysis认为,AMD这些优势却几乎发挥不了多少作用。因为AMD MI300X配套的软件存在缺陷,若大量错误不能排除,会让训练AI模型变成几乎不可能的任务。相比之下,英伟达却持续推出全新功能、工具库并升级性能,持续保持领先。

SemiAnalysis指出,其研究团队执行了大量测试,当中包括GEMM、单节点训练(single-node training)等,发现AMD MI300X存在软件缺陷,其研究团队必须跟AMD工程师一同修正无数软件缺陷,才能达到堪用的标竿测试结果。

SemiAnalysis称,“AMD产品开箱后非常难以操作,需要相当大的耐心及努力才能达到可用的状态”。相比之下,英伟达的AI解决方案开箱就能顺畅运作。

SemiAnalysis还透露,AMD最大云端客户Tensorwave,必须免费提供基于这些GPU实例的使用时间,以便于给AMD团队来解决软件问题,这实在疯狂,毕竟Tensorwave已经支付了这些GPU的费用。

Semianalysis首席分析师Dylan Patel还通过社交平台X指出,他跟AMD CEO苏姿丰(Lisa Su)开了1.5小时的会议,逐一反馈了相关问题。他建议苏姿丰重金投入软件开发与测试,尤其应配置数千颗MI300X芯片来做自动化测试——跟进英伟达的做法。此外,他还建议苏姿丰简化复杂的环境变数,实施更好的预设设定。“请让产品开箱便可用!”他写道。

苏姿丰则回应称,感谢Patel具有建设性的对话,并坦承AMD软件方面的不足之处。她表示,“Patel的反馈是个礼物、即便它很严苛。AMD已大量投入客户和工作量优化作业,但为支持广泛的生态系统,尚有许多努力空间。非常感谢大家的回馈。AMD致力打造世界一流的开源软件,2025年有很多计划。祝大家佳节愉快!”

编辑:芯智讯-浪客剑

0 阅读:21

芯智讯

简介:专注于手机、芯片、智能硬件等相关领域的行业资讯报道。