Tenstorrent推出基于RISC-V架构的高性能AI芯片

芯智讯 2024-07-21 16:35:05

7月20日消息,由传奇芯片架构师Jim Keller领导的AI芯片新创公司Tenstorrent近日通过官网宣布,推出新一代基于RISC-V架构的高性能AI芯片Wormhole n150,以及基于该芯片的PCIe卡Wormhole n300和面向软件开发人员的 TT-LoudBox 和 TT-QuietBox 工作站。

Tenstorrent 首席执行官 Jim Keller 表示:“将更多产品交到开发人员手中总是有益的。使用我们的 Wormhole  卡发布开发系统有助于开发人员扩大规模并开发多芯片 AI 软件。除了这次发布之外,我们很高兴我们的第二代 Blackhole 的流片和通电进展非常顺利。”

据介绍,Wormhole  n150采用 Tenstorrent 自研的灵活、可扩展的Wormhole  Tensix 人工智能计算内核,拥有72核心和 108 MB SRAM,主频为1GHz,运行功率高达 160W,可以提供262 TeraFLOPs (FP8)的算力。单芯片卡配备了 12 GB GDDR6 内存,带宽为 288 GB/s。

需要指出的是,Tenstorrent 的每一个Tensix 人工智能计算内核内部都集成了 5 个支持各种数据格式的基于 RISC-V 架构的微处理器。

Tenstorrent称,与传统 GPU 相比,Wormhole  n150提供卓越的性价比和广泛的数据精度格式支持。同时,还可以联网成工作站和服务器的多芯片网格,并由两个开源SDK支持,用于高级(TT-Buda)或低级(TT-Metalium)开发,还包括主动冷却套件。

Wormhole n300 就是由两颗Wormhole  n150芯片组成的PCIe加速卡,拥有128 个Wormhole  Tensix 核心,主频1GHz,192 MB SRAM,以及板载24 GB GDDR6,频率为 576 GB/s,可以在300W 下提供高达 466 FP8 TFLOPS的算力。软件配套方面与Wormhole  n150s一致。

Tenstorrent 还推出了新的工作站,包括 TT-QuietBox和TT-LoudBox。

TT-QuietBox 是一款液冷桌面工作站,是面向运行或测试 AI 模型的开发人员的绝佳解决方案,或者是为 HPC 移植和开发库的绝佳解决方案。TT-QuietBox 配备了AMD 的 EPYC 处理器和四张Wormhole  n300加速卡,总共有 8 个 Wormhole Tensix 处理器。这些处理器通过灵活的、基于以太网的网状拓扑连接,该拓扑可以扩展以实现 96GB 内存池。这使得TT-QuietBox能够运行多达约800亿个参数的单用户/单模型和多达约200亿个参数的单用户/多用户、多个模型。TT-QuietBox 也由两个开源 SDK 支持,用于高级 (TT-Buda) 或低级 (TT-Metalium) 开发。

TT-LoudBox 主要为希望运行、测试和开发 AI 模型或移植和开发 HPC 库的开发人员提供卓越的性价比的解决方案。其配备了英特尔的Xeon处理器,和备四张Wormhole  n300加速卡,总共有 8 个 Wormhole  Tensix 处理器,这种基于以太网的灵活网状拓扑结构可以扩展以实现 96GB 内存池。这使得TT-LoudBox能够运行多达约800亿个参数的单用户/单模型和多达约200亿个参数的单用户/多用户、多个模型。TT-LoudBox 也由两个开源 SDK 支持,用于高级 (TT-Buda) 或低级 (TT-Metalium) 开发。

定价方面,Tenstorrent 的 Wormhole n150 零售价为 999 美元,Wormhole n150零售价为1,399 美元,这个价格要比市场竞争对手的产品的便宜得多。TT-LoudBox 工作站零售价为 6,000 美元,而 TT-QuietBox 工作站的零售价为 15,000 美元。

小结:

从上面的介绍当中,我们可以看到,虽然Tenstorrent的Wormhole n150芯片的算力并不高,与英伟达、AMD、英特尔的AI芯片仍有一定差距。作为对比,英伟达的H100在300W功率时其FP8的性能高达 1,670 TFLOPS(稀疏时为 3,341 TFLOPS),远高于160W功率下的Wormhole  n150(262 TeraFLOPs ),也高于300W 功率下的Wormhole n300加速卡的算力(466 FP8 TFLOPS)。

虽然从纸面上看,Wormhole 系列AI芯片及加速卡性能不高,但 Tenstorrent 计划通过提供巨大的可扩展性来使其 AI 产品具有竞争力。这意味着当需要统一电源时,多个Wormhole 处理器可以作为一个单元运行,或者它们也可以单独使用,这一切都是因为使用了以太网互连,这是也是Jim Keller高度赞赏的。也就是说,要达到类似英伟达H100的算力,可能需要4张Wormhole n300加速卡互联就可以办到。

并且,在价格方面,一张英伟达H100 加速卡的零售价高达 30,000 美元,而Wormhole  n150的零售价仅为 999 美元,4张Wormhole n300加速卡的零售价也只有不到4000美元,仅为H100的约1/8。

Jim Keller此前也曾批评英伟达等公司的人工智能芯片昂贵,显然Tenstorrent正是希望提供更具性价比的解决方案。

而Wormhole AI芯片之所以能够做到具备更高的性价比,一个关键原因是因为其并未像英伟达、AMD、英特尔的AI芯片那样配备的大容量的HBM(高带宽内存),这是这些AI芯片关键组件,但是其成本高昂,并且功耗较高。而Wormhole AI芯片则是与Groq的LPU芯片一样,选择采用了高带宽的片上SRAM,虽然其容量与常见的AI芯片中动辄几十GB、甚至上百GB容量的HBM差距巨大,但由于其直接是在集成在片内的,无需将数据从GPU到HBM来回搬运,数据处理速度更快、更高效、功耗也较低,综合成本也更低。

Jim Keller认为,全新方式可让Tenstorrent芯片在部分AI应用领域取代GPU及HBM。此外,Tenstorrent也会尽量提升产品成本效益。不过,Jim Keller也坦言想要动摇目前规模日益庞大的HBM产业,恐怕需要花上数年时间。他预测,未来将有更多新兴AI芯片公司进入英伟达目前还无法服务到的AI市场,但不是出现单独一家完全取代英伟达的企业。

编辑:芯智讯-浪客剑

1 阅读:47

芯智讯

简介:专注于手机、芯片、智能硬件等相关领域的行业资讯报道。