英伟达突然冒出来一个劲敌。一家名叫Groq的公司今天在AI圈内刷屏,杀招就一个:快。
Groq的初创公司在AI圈爆火,其推出的全新AI芯片受到广泛关注。
这款芯片的推理速度较英伟达GPU提高10倍,而成本只有其1/10。
Groq的创始团队有8人来自谷歌早期TPU核心设计团队,但他们并未选择发展TPU,而是创新性地研发了LPU(语言处理单元)。在LPU推理引擎上运行的Llama 2 70B,输出tokens吞吐量快了18倍,优于其他所有云推理供应商。
Groq芯片完全抛开了英伟达GPU的HBM与CoWoS封装,采用14nm制程,搭载230MB SRAM,内存带宽达到80TB/s,整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。LPU推理引擎是一种新型端到端处理单元系统,可为AI大模型等计算密集型应用提供最快的推理速度。