芯动力展示AI加速卡：小体积跑70亿参数大模型！

撰稿人|程曦

修改|沙漠渲染

像人工智能电脑这样的新型电脑正变得越来越流行，公司对于人工智能加速器的兴趣也在不断增长。

然而， AI PC等终端端设备在 AI加速器版图上如何使用，是个很大的难题，这就需要在小型化、高性能和低功耗之间进行平衡，从而实现终端侧设备的大容量。

清华大学人工智能芯片研发企业——芯动科技近日发布了一款面向大型机的全新产品—— AzureBladeL系列 M.2加速卡，这是一款具有自主知识产权的新型芯片。它是目前国内性能最好、性能最好的微型加速器卡，其强劲的性能使之能够在大型机型上流畅运行。

M.2齿轮卡只有80 mm长x22 mm宽，适合 Lama 2型稳定漫射相机。

M.2加速卡以其体积小、性能高、接口通用性强等优点，成为 PC等终端设备部署主机的加速器。

以此为主线，核心动力公司与核心动力公司创始人兼 CEO李原展开深度对话，探讨目前大模型产业发展至今的重要变革，核心动力公司在向终端市场推出大型模型方面发挥的作用，以及"杀手级"的手机应用是什么样的。

I.体积小，性能好，功耗低，后边缘大的三个主要实现方式

人工智能电脑已经成为大规模模式发展的一个重要推动力，而这些模式最终会应用到终端设备上。

自去年末以来，人工智能电脑热一直在升温。英特尔发布了人工智能个人电脑加速计划，高通发布了专门针对人工智能的电脑芯片 Snapdragon XRlite，而英伟达则于上周发布了其最新的 RTX 500及1000图形卡，使其能够在诸如笔记本等终端设备上运行生成型人工智能应用。

据市场调研机构 IDC发布的一份报告显示，在2024年，人工智能电脑的数量有望接近5000万台，到2027年，这个数字将达到1.36亿，占全球电脑总数的60%。

新一代的人工智能电脑加速了大规模模型的扩充。同时，大规模的模型参数化也要求终端设备具有更高的计算能力。

这是一种单独的装置。就拿电脑来说吧，作为人们日常生活、工作中使用最多的一种设备，它不够大，也不够轻，所以需要一种不会因为体积太小而影响性能优势的人工智能加速卡。以 M.2加速卡的形式进入智能电脑市场，具有非常高的性价比。

目前，大尺度模型的发展已不局限于参数化理论，而是出现了大量小尺度、大尺度、大尺度、大尺度、大尺度的模型，如 Llama 2系列模型，其参数范围从70-700亿不等，为大尺度模型的端侧化提供了可能。

然而，大规模模型在片上的成功应用，仍然很难克服终端设备计算与存储能力的限制，因此，芯片制造商急需在芯片尺寸与高性能之间找到一个平衡点。

李原指出，终端端设备的另一个重要特征，就是 GPU是核心部件，其背后的风险在于，如果产品研发周期过长，那么未来的发展空间就会受限。由于缺少外部设备的接口选择，很多设备都要为不同的芯片提供接口，这就给企业带来了很大的挑战。

这些新的变化与需求，为刚刚起步的 GPGPU提供了新的机会。

拉穆2号采用了新颖的包装技术，既有体积又有性能上的优点。

CorePower公司推出的 M.2 AzureBladeL系列加速卡，就是最好的解决方案，以适应市场的变化。

2加速卡拥有4块16 GB内存，除了传统的视屏网络如 YOLO之外，还支持 lama 2，稳定化扩散等多种模式。李原表示，2.2加速器目前能够支撑70亿、130亿美元以及最多300亿个参数的拉玛2模型。目前， M.2加速器计算 lama 2的速度超过了每秒10个代币。

2加速卡具有体积小，性能高，功耗低等优点，它解决了终端厂商实现大容量机型所面临的主要难题。

李原表示，普通的 GPU, NPU，如果用来处理大型模型，会因为运算量大、功耗大，芯片的面积就会变得更大，很难在极小的空间内实现设备端的集成。相比之下，只有80mm-22mm大小的 M.2加速器卡恰好满足了这一要求。

其中最关键的一点，就是芯原AE7100集成了一块 M.2加速卡芯片，在17x17 mm大小的情况下，其运算能力达到了32 T，存储带宽达到了60 GB/s。

为了让芯片变得更薄更小，芯动科技已经研发出了一种全新的封装方案。从一开始，他们就在朝着这个方向努力，将 ABF材料从芯片中剥离出来，让芯片不再需要衬底，从而解决了散热问题。"这是我们第一次尝试这样的封装方式，并且做出了工业上最小最薄的图形处理器。

M.2加速卡将体积与性能优点结合在一起。

考虑到终端设备上可供使用的接口有限， Core公司为 M.2加速卡选用了更为普遍的闪存驱动接口，该接口已广泛应用于个人计算机等设备，因而更易被企业所接受，无需对芯片接口进行修改即可快速实现功能。

很多客户已经注意到了 M.2加速卡，它可以帮助公司规避客户定制的风险，为客户提供更多的个性化选择。

本项目的研究成果将在人工智能计算，机器视觉，泛安全，内容过滤等方面发挥重要作用。

第三， M.2加速卡被提供来支持" Hexagon Warrior"处理器。

在大型设备向终端设备、人工智能电脑等新兴领域转移之际， CoreActive能快速推出具有创新性的M.2加速卡，其关键是可配置并行处理器（RPP）架构。这是AAE7100的杀手锏，其核心就是 M.2加速卡。

KCOM半导体公司称 RPP为“六边形战士”，是一种专门用于并行计算的芯片体系结构。本项目将充分发挥 NPU的高效性、 GPU的高通用性以及 DSP的低延时特性，为图像处理、视觉计算、信号处理等高效率并行计算及人工智能应用提供新的解决方案。

在一定条件下，采用同一种工艺的 Core Power GPGPU芯片，其性能可比 NVIDIA®芯片提升50%以上。

探究这种结构就是他们建立公司的主要理由。芯片行业的特点就是研发周期长，芯片需要在保持芯片性能的前提下，在五到六年的时间里，不断地适应市场的变化，这样才能更快地抓住诸如人工智能计算之类的机会，开发出具有显著效益的产品。

研究 RPP体系结构要追溯到 NVIDIA发布 GPGPU概念之前和之后。那时， CorePower的创始团队就开始探索如何在性能，功耗，成本，延时以及部署速度等方面取得更好的平衡。

为此，自2011年至2016年，他们一直致力于将 NPU的高效性和 GPU的多样性有机地结合起来，形成了 RPP体系结构。

科通芯城的产品研发周期分为两期，科通芯城负责芯片研发与基础软件研发，因此从企业需求来看，这一基础型芯片研发仅需2-3个月即可实现产品性能，极大地缩短了应用周期。

原因就是为了推销芯片。他还说，目前人工智能技术还处于起步阶段，相对于其它传统工业设备来说，真正落地的产品还很少，所以产品的定义也在不断变化。以 RPP架构为核心的产品，可以前瞻性地解决芯片在更多场景下所能满足的通用需求，而这一点与其已有的终端产品存在“70%的差距”。

为了应对最近市场的变化，2.2加速卡已经开始快速发货.目前 M.2加速卡主要应用于人工智能电脑、工业视觉以及人工智能服务器等厂商。现在， M.2加速卡已经交付给了拥有基因检测系统和人工智能服务器的用户。

毫无疑问，科通芯城的这款创新产品，将会在大型终端上激起无限的遐想。

结论：抛弃大模型，只关注 GPGPU厂商

大型机市场的蓬勃发展，为国内 GPGPU厂商提供了更多机会，同时，应用端对于大型机的需求，也为国内厂商提供了广阔的商机。

芯原自创立之日起，始终以前瞻的眼光，以 RPP架构为核心，创造出更多功能化的产品，以满足企业客户更具普遍性的需要，以更具弹性的应变能力应对市场的变化。

随著 M.2加速卡量产及人工智能电脑量产化，大容量终端产品的开发将加快。芯原亦致力于在大规模机型给行业带来的变革中寻找市场机会。

很明显，积累关键技术和前瞻性技术是抓住产业机遇的关键。

世良情感网

芯动力展示AI加速卡：小体积跑70亿参数大模型！

小成聊科技