Etched公司发布了Sohu芯片,声称在AI大型语言模型(LLM)推理方面超越了Nvidia的H100。Etched公司是一家专门制造以transformer为重点的芯片初创公司,其宣布一台8xSohu服务器的性能相当于160个H100 GPU,这意味着如果Sohu达到预期,数据中心可以在初始和运营成本上节省开支。
比Nvidia H100 GPU快20倍?Etched没有制造一个可以适应每一个AI架构的芯片,而是制造了一个只与transformer模型一起工作的芯片。据Etched公司称,当前的AI加速器,无论是CPU还是GPU,都设计用于与不同的AI架构一起工作。这些不同的框架和设计意味着硬件必须能够支持各种模型,如卷积神经网络、长短期记忆网络、状态空间模型等。由于这些模型针对不同的架构进行了调整,大多数当前的AI芯片将很大一部分计算能力分配给了可编程性。
大多数大型语言模型(LLM)使用矩阵乘法来完成大部分计算任务,Etched估计Nvidia的H100 GPU只有3.3%的晶体管用于这个关键任务。这意味着剩余的96.7%的硅片被用于其他任务,这些任务对于通用AI芯片仍然至关重要。
然而,transformer AI架构最近变得非常流行。例如ChatGPT,可以说是当今最受欢迎的LLM,就是基于transformer模型的。其他竞争模型如Sora、Gemini、Stable Diffusion和DALL-E也都基于transformer模型。
Etched在几年前启动了Sohu项目,这款芯片将transformer架构嵌入到硬件中,从而允许它将更多的晶体管分配给AI计算。我们可以将其比作处理器和图形卡——假设当前的AI芯片是CPU,可以执行许多不同的任务,然后transformer模型就像游戏的图形需求。当然,CPU仍然可以处理这些图形需求,但它不会像GPU那样快速或高效地处理。一个专门处理视觉的GPU会使图形渲染更快、更高效,这是因为它的硬件是专门为这个设计的。