国产通用GPU持续迭代助力本土大模型加快落地

科闻社 2023-07-07 16:27:32

在OpenAI发布ChatGPT后,中国知名高科技公司百度、阿里等陆续发布了各自的生成式大模型。ICT产业巨头华为也在今天发布了盘古大模型3.0。

生成式大模型,从技术底座层面上,算力芯片是一个关键。也正是因为AI芯片在其中的关键作用,造就英伟达近半年的业界奇迹。显然,目前,国产底层的算力芯片能力是有所不足的。

故此,在这一领域,本土厂商正在积极作为。据报道,在正在举行的世界人工智能大会上,就有11家本土芯片企业,带来共计12款芯片展品亮相展会。这其中包括了天数智芯的“智铠100”。

前不久,天数智芯产品线总裁邹翾向外界介绍了天数智芯作为国产GPU厂商助力大模型的实践。

邹翾首先指出,基于Transformer结构的大模型,由于训练的参数量级的增长致使计算需求量级增长,导致计算算力短缺,因而算力是否充足将决定各公司大模型产品的成败。

邹翾认为,在算力需求层面要考虑三大要素:一是通用,可支持模型的快速变形、快速支持新算子、快速支持新通讯;二是易用,可利用现有算法模块实现、调优经验可借鉴;三是通用,可重构并行计算、访存全交换、计算全互联。

邹翾并强调,除算力之外,还有一些因素需要考量,那就是训练的集群需要成千上万张卡同时运行,要保证在训练过程中能连续工作且不出故障,对产品稳定性和可靠性产生极严格的要求。同时,还要支持可扩展的弹性能力,实现算力弹性可扩容。此外,还要提供坚实的保障,在故障出现时能迅速定位并快速恢复。

作为通用GPU厂商,顺应大模型的发展潮流,天数智芯依托通用GPU架构,从训练和推理两个角度为客户提供支撑,全力打造高性价比、通用性的全栈式集群解决方案,为大模型时代提供强大算力底座。为全面助力大模型的发展,天数智芯还围绕底层技术支撑做了大量功课。

对于未来大模型的发展,邹翾表示,不论从应用还是研发角度来看,大模型需求会持续走高,天数智芯也将持续致力于算法简化、推理模型优化,并自主开发用户易用的通用GPU产品,不断升级算力解决方案,适配支持更高效、更复杂算法的大模型。

据介绍,天数智芯的通用GPU产品天垓、智铠系列具有自主可控、高性能、通用性、灵活性等特点,广泛支持PyTorch、TensorFlow、PaddlePaddle等各种原生框架,支撑了200余种人工智能算法模型稳定运行。

此外,在此基础上,天数智芯自主研发了IXCCL分布式通信技术,显著提升多机多卡高速互联性能,打造基于自主通用GPU的算力集群方案,持续优化自动混精训练、流水线并行、张量并行、数据并行以及模型并行等并行加速策略,让大模型训练、推理变得更加高效。

2 阅读:234
科闻社

科闻社

专注硬科技产业与金融领域信息