Cerebras跳过GPU芯片级引擎击败NvidiaHopper...

近年来，AI技术的进展使得对于AI模型的推理性能需求不断提升。以Cerebras Systems为代表的企业，在硬件设计上采用“芯片规模运算”（Wafer-Scale Engine, WSE）技术，通过提升内部运算效率，显著超越了目前主流的Nvidia GPU。Cerebras最新的CS-3系统在执行Meta公司开源的Llama 3.2模型时，展示了比“Hopper”H100 GPU更强大的推理性能，引起业界关注。

Cerebras CS-3系统的最新性能数据来自Artificial Analysis的评测报告，其显示CS-3系统的推理速度较Llama 3.1提升了3.5倍，特别是在使用Llama 3.2 70B（即70亿参数）模型时，其推理性能更是达到了2100字符/秒，远高于先前版本的589字符/秒。这一进展不仅证明了Cerebras在硬件和软件层面的调优能力，也表明其在AI推理市场的竞争力远远超越了传统GPU解决方案。

Cerebras的技术进展代表着AI推理市场的重大转变。传统上，AI训练需要庞大的计算资源，而Cerebras以大规模芯片运算系统打破了运算瓶颈，使得AI推理成为更加高效的任务。推理需求的提升，意味着企业不必耗费大量资源来自行训练模型，而可以选择Cerebras的高效推理解决方案来部署AI应用。

值得注意的是，根据Artificial Analysis的数据，Cerebras CS-3系统在执行Llama 3.2 70B模型的推理性能相比八路HGX节点的H100 GPU（3B模型）更快了8到22倍，平均速度约为13.2倍，显示出Cerebras在推理性能和成本效益上的绝对优势。对于想要在推理市场立足的Cerebras而言，这种优势将为其IPO增添更具说服力的销售亮点。

Cerebras的CS-3系统的核心技术在于其WSE-3芯片规模处理器。这款处理器拥有90万个张量核心、44 GB的内置SRAM内存和高达125 PFlops的运算能力。Cerebras通过将模型分层分布在不同的芯片上，降低对带宽的需求，使其在处理超大规模模型时更具效率。这样的分层架构设计使得即使在运行405B模型（即4050亿参数）时，Cerebras仍有信心保持稳定的推理性能。

以Llama 3.2 70B模型为例，单一WSE-3引擎拥有的44 GB SRAM不足以容纳整个模型的参数，因此需要至少三颗WSE-3引擎和四个CS-3节点才能加载整个模型。通过Cerebras特有的SwarmX网络协议，这些引擎之间的互联带宽可达214 Pb/sec，确保数据在不同节点间的高效传输。

除了硬件上的突破，Cerebras的软件优化也扮演了关键角色。以往GPU的性能提升大多来自硬件迭代，而Cerebras的软件团队仅在两个月内，通过优化就将推理速度提升了4.7倍，从450字符/秒提升至2100字符/秒。这样的进步速度甚至超越了Nvidia历来在软件调整中的增益，证明了Cerebras在推理应用领域中迅速拉开了差距。

Cerebras的软件调整方式可以使其在不增加硬件资源的情况下快速增强推理性能，这无疑将为客户带来更具成本效益的解决方案。此外，Cerebras表示其团队已着手进行Llama 3.2 405B模型的调试工作，为日后更高精度的推理需求做好了准备。

在成本效益方面，Cerebras CS-3系统在推理市场的定价模式也具备竞争力。根据推测，576个CS-3节点的成本约为9亿美元，折算下来每个节点约需156万美元。而相同性能的Nvidia H100 HGX节点单价则约为37.5万美元。因此，Cerebras在推理成本上约比Nvidia便宜2.75倍，而在云计算租赁市场的价格差距更是达到5.2倍，显示Cerebras在云计算市场的价格策略以损益平衡为主，希望通过低价吸引更多用户。

Cerebras未来将面临如何增加SRAM容量的挑战。WSE-3处理器的限制主要来自内存容量，尤其在处理超大模型时，现有的44 GB SRAM无法完全满足需求。为此，业界期待Cerebras引入类似AMD 3D V-Cache的3D内存堆栈技术，让WSE-4引擎在SRAM层面取得突破。若能在SRAM上实现多层堆栈，每层提供60 GB或更多的容量，将可显著增强系统对大型模型的处理能力。

此外，Cerebras目前提供的MemoryX内存选项包含24 TB至1200 TB不等的配置，为超大规模推理提供了灵活的存储解决方案。这些内存可独立于运算单元进行扩展，特别适合需要海量参数存储的推理模型，并支持企业和超大规模运算需求。

Cerebras在AI推理市场的崛起，代表了运算架构创新对AI性能的突破。随着AI模型规模的持续扩大，推理运算将日益依赖于高效的硬件架构与软件调优。Cerebras的WSE-3系统不仅为市场提供了比传统GPU更具成本效益的选择，更展示了在技术上的前瞻性。面对未来，Cerebras若能继续优化其内存配置并引入堆栈技术，无疑将在AI推理领域创造更大的价值。