国产通用GPU持续迭代助力本土大模型加快落地

在OpenAI发布ChatGPT后，中国知名高科技公司百度、阿里等陆续发布了各自的生成式大模型。ICT产业巨头华为也在今天发布了盘古大模型3.0。

生成式大模型，从技术底座层面上，算力芯片是一个关键。也正是因为AI芯片在其中的关键作用，造就英伟达近半年的业界奇迹。显然，目前，国产底层的算力芯片能力是有所不足的。

故此，在这一领域，本土厂商正在积极作为。据报道，在正在举行的世界人工智能大会上，就有11家本土芯片企业，带来共计12款芯片展品亮相展会。这其中包括了天数智芯的“智铠100”。

前不久，天数智芯产品线总裁邹翾向外界介绍了天数智芯作为国产GPU厂商助力大模型的实践。

邹翾首先指出，基于Transformer结构的大模型，由于训练的参数量级的增长致使计算需求量级增长，导致计算算力短缺，因而算力是否充足将决定各公司大模型产品的成败。

邹翾认为，在算力需求层面要考虑三大要素：一是通用，可支持模型的快速变形、快速支持新算子、快速支持新通讯；二是易用，可利用现有算法模块实现、调优经验可借鉴；三是通用，可重构并行计算、访存全交换、计算全互联。

邹翾并强调，除算力之外，还有一些因素需要考量，那就是训练的集群需要成千上万张卡同时运行，要保证在训练过程中能连续工作且不出故障，对产品稳定性和可靠性产生极严格的要求。同时，还要支持可扩展的弹性能力，实现算力弹性可扩容。此外，还要提供坚实的保障，在故障出现时能迅速定位并快速恢复。

作为通用GPU厂商，顺应大模型的发展潮流，天数智芯依托通用GPU架构，从训练和推理两个角度为客户提供支撑，全力打造高性价比、通用性的全栈式集群解决方案，为大模型时代提供强大算力底座。为全面助力大模型的发展，天数智芯还围绕底层技术支撑做了大量功课。

对于未来大模型的发展，邹翾表示，不论从应用还是研发角度来看，大模型需求会持续走高，天数智芯也将持续致力于算法简化、推理模型优化，并自主开发用户易用的通用GPU产品，不断升级算力解决方案，适配支持更高效、更复杂算法的大模型。

据介绍，天数智芯的通用GPU产品天垓、智铠系列具有自主可控、高性能、通用性、灵活性等特点，广泛支持PyTorch、TensorFlow、PaddlePaddle等各种原生框架，支撑了200余种人工智能算法模型稳定运行。

此外，在此基础上，天数智芯自主研发了IXCCL分布式通信技术，显著提升多机多卡高速互联性能，打造基于自主通用GPU的算力集群方案，持续优化自动混精训练、流水线并行、张量并行、数据并行以及模型并行等并行加速策略，让大模型训练、推理变得更加高效。