芯片对于 AI 发展的重要性已无需多言。这不仅引发了对于英伟达 GPU 的争夺战,同时也创造了巨大的 AI 芯片市场,带来相关领域的创业潮,各大企业纷纷开始自研芯片。
研发新的 AI 芯片除了摆脱对英伟达的依赖,从性价比方面来说,英伟达的 GPU 作为通用芯片在 AI 大模型专用领域的利用率不高,投入成本高昂,但实际收益相对较低。
这就给专用 AI 芯片带来机会。在此背景下,硅谷经过互联网和软件技术为主导的发展后,似乎有回归最初以半导体产业为核心的趋势。除了传统半导体厂商、大型科技公司接连推出芯片产品,AI 芯片初创企业也融资不断。
这其中包括一家名为 MatX,由前谷歌工程师创立的芯片公司。该公司目前已经融资 2500 万美元,投资人包括 Nat Friedman 和 Daniel Gross 等。
据官网信息,MatX 的 CEO 兼联合创始人 Reiner Pope 曾是 Google PaLM 的效率主管,帮助构思了谷歌 TPU v5e 芯片并针对大语言模型进行了优化。另一位联创兼首席技术官 Mike Gunter 拥有 28 年的硬件架构经验,曾是谷歌 TPU 芯片的架构师,为谷歌设计了第一个硬件加速器。
图 | MatX 团队(来源:官网)
MatX 的定位是为 AI 模型设计量身定制的硬件。当前支持 AI 训练和推理的一般是通用芯片,如英伟达 GPU。通用芯片能够处理各种类型的计算任务,包含了许多为其他计算任务设计的功能和架构元素,这些在模型训练中可能并不需要。这意味着在 AI 训练等特定任务上,可能无法完全发挥芯片的性能,从而导致资源浪费。
高昂的采购和运维成本,以及与性能不完全对等的效率,使得英伟达 GPU 在特定 AI 任务上有进一步优化的空间。OpenAI CEO Sam Altman 也直言运行英伟达芯片的数据中心效率低下,也在寻求自研芯片。
MatX 希望优化芯片每一个组成部分,让所有晶体管的功能都专注于最大化 AI 模型的性能。
具体来说,MatX 将设计具有一个大处理内核的单一用途芯片,通过做专门调整来提高对 AI 模型需求的响应能力和效率,从而确保能够获得更好的表现。
集中资源于一个大型处理核心的设计方式,十分适合执行 AI 训练所需的任务。该类任务需要处理大量的高密度矩阵运算,涉及非常多的数据点和复杂的数学操作,特别是矩阵乘法和向量运算。
单一用途的芯片能够提供更高的计算能力和更快的处理速度,以及有效支持大规模并行处理,进而显著减少 AI 训练时间并提高模型的学习效率。
虽然 GPU 也非常擅长并行处理,但大模型训练需要的并行级别可能超过了 GPU 的最佳配置。特别是在模型规模持续增加的情况下,传统 GPU 的核心数和架构可能无法最优地支持这种规模的并行计算。
此外,AI 训练需要极高的内存带宽来处理大规模的数据集和复杂的模型参数。虽然 H100 等 GPU 具有高速的内存,但在面对极其庞大的模型和复杂的数据流时,内存带宽仍可能成为瓶颈。
MatX 声称,市场上的其他硬件产品在设计时可能没有区分模型的大小,即它们为不同规模的模型提供相似的支持和资源。这种设计策略可能在通用性上有优势,但可能不足以最大限度地提高大模型的性能。
相比之下,MatX 专门针对大型模型进行优化,致力于为其提供高度专业化和高性能硬件。据了解,MatX 的芯片提供出色的扩展性能,能够支持包含数十万芯片的集群系统,同时,可以为 700 亿参数级别的模型提供极低延迟,每个 token 的处理时间将少于 10 毫秒。通过使用 MatX 的芯片,AI 模型能够比当前预期的时间提前 3-5 年完成。
MatX 进一步告诉媒体,虽然英伟达 GPU 很强大且是大多数公司的选择,但他们可以做得更好。其处理器在训练大模型和执行推理任务时的性能,至少比英伟达的 GPU 好十倍。并表示,预计明年完成第一个产品版本。
如果 MatX 的芯片在 AI 方面能提供显著更高的效率和性能,将对专注于此类任务的用户非常有吸引力。高效率的处理器不仅能加快任务完成的速度,更快地迭代模型,还能减少能源消耗和长期运营成本。对于需要处理庞大数据和复杂模型的企业或机构来说,这种成本效益无疑具有巨大优势。
据悉,人工智能若继续沿着当前的发展轨迹,目前正在开发的模型估计每个训练成本约为 10 亿美元,而它们的后续产品预计训练成本将达到 100 亿美元。OpenAI 和 Anthropic 等公司的资金大都花费在了计算资源上。为了可持续发展,这种情况必须改变。
MatX 公司的官网提到,使用他们的硬件,任何种子阶段的初创公司都能负担得起从零开始训练一个 GPT-4 级别的模型,并在 ChatGPT 流量级别上提供服务。
总结来说,AI 专用芯片能够更好地匹配大模型训练的需求,从而提供更高的性能密度和能效比,减少资源浪费和成本支出。
当然,若想要替代英伟达的芯片,还需要面临其搭建的生态系统和兼容性问题。英伟达 GPU 的一个重要优势是其成熟的 CUDA 编程环境和广泛支持的深度学习框架,如 TensorFlow 和 PyTorch。这些工具已经为 GPU 优化,能够充分利用其并行处理能力,使开发者可以轻松地在英伟达芯片上运行现有和新的大模型。
MatX 等企业成功的关键可能在于其能否提供足够的性能优势,同时降低开发者和企业的迁移成本。而这是一个复杂且耗时的过程,需要多方面的努力。
参考:
https://matx.com/about
https://www.datacenterdynamics.com/en/news/two-ex-googlers-launch-ai-chip-startup-matx/