芯动力展示AI加速卡:小体积跑70亿参数大模型!

小成聊科技 2024-03-14 19:21:12

芯动力展示AI加速卡:小体积跑70亿参数大模型!

撰稿人|程曦

修改|沙漠渲染

像人工智能电脑这样的新型电脑正变得越来越流行,公司对于人工智能加速器的兴趣也在不断增长。

然而, AI PC等终端端设备在 AI加速器版图上如何使用,是个很大的难题,这就需要在小型化、高性能和低功耗之间进行平衡,从而实现终端侧设备的大容量。

清华大学人工智能芯片研发企业——芯动科技近日发布了一款面向大型机的全新产品—— AzureBladeL系列 M.2加速卡,这是一款具有自主知识产权的新型芯片。它是目前国内性能最好、性能最好的微型加速器卡,其强劲的性能使之能够在大型机型上流畅运行。

M.2齿轮卡只有80 mm长x22 mm宽,适合 Lama 2型稳定漫射相机。

M.2加速卡以其体积小、性能高、接口通用性强等优点,成为 PC等终端设备部署主机的加速器。

以此为主线,核心动力公司与核心动力公司创始人兼 CEO李原展开深度对话,探讨目前大模型产业发展至今的重要变革,核心动力公司在向终端市场推出大型模型方面发挥的作用,以及"杀手级"的手机应用是什么样的。

I.体积小,性能好,功耗低,后边缘大的三个主要实现方式

人工智能电脑已经成为大规模模式发展的一个重要推动力,而这些模式最终会应用到终端设备上。

自去年末以来,人工智能电脑热一直在升温。英特尔发布了人工智能个人电脑加速计划,高通发布了专门针对人工智能的电脑芯片 Snapdragon XRlite,而英伟达则于上周发布了其最新的 RTX 500及1000图形卡,使其能够在诸如笔记本等终端设备上运行生成型人工智能应用。

据市场调研机构 IDC发布的一份报告显示,在2024年,人工智能电脑的数量有望接近5000万台,到2027年,这个数字将达到1.36亿,占全球电脑总数的60%。

新一代的人工智能电脑加速了大规模模型的扩充。同时,大规模的模型参数化也要求终端设备具有更高的计算能力。

这是一种单独的装置。就拿电脑来说吧,作为人们日常生活、工作中使用最多的一种设备,它不够大,也不够轻,所以需要一种不会因为体积太小而影响性能优势的人工智能加速卡。以 M.2加速卡的形式进入智能电脑市场,具有非常高的性价比。

目前,大尺度模型的发展已不局限于参数化理论,而是出现了大量小尺度、大尺度、大尺度、大尺度、大尺度的模型,如 Llama 2系列模型,其参数范围从70-700亿不等,为大尺度模型的端侧化提供了可能。

然而,大规模模型在片上的成功应用,仍然很难克服终端设备计算与存储能力的限制,因此,芯片制造商急需在芯片尺寸与高性能之间找到一个平衡点。

李原指出,终端端设备的另一个重要特征,就是 GPU是核心部件,其背后的风险在于,如果产品研发周期过长,那么未来的发展空间就会受限。由于缺少外部设备的接口选择,很多设备都要为不同的芯片提供接口,这就给企业带来了很大的挑战。

这些新的变化与需求,为刚刚起步的 GPGPU提供了新的机会。

拉穆2号采用了新颖的包装技术,既有体积又有性能上的优点。

CorePower公司推出的 M.2 AzureBladeL系列加速卡,就是最好的解决方案,以适应市场的变化。

2加速卡拥有4块16 GB内存,除了传统的视屏网络如 YOLO之外,还支持 lama 2,稳定化扩散等多种模式。李原表示,2.2加速器目前能够支撑70亿、130亿美元以及最多300亿个参数的拉玛2模型。目前, M.2加速器计算 lama 2的速度超过了每秒10个代币。

2加速卡具有体积小,性能高,功耗低等优点,它解决了终端厂商实现大容量机型所面临的主要难题。

李原表示,普通的 GPU, NPU,如果用来处理大型模型,会因为运算量大、功耗大,芯片的面积就会变得更大,很难在极小的空间内实现设备端的集成。相比之下,只有80mm-22mm大小的 M.2加速器卡恰好满足了这一要求。

其中最关键的一点,就是芯原AE7100集成了一块 M.2加速卡芯片,在17x17 mm大小的情况下,其运算能力达到了32 T,存储带宽达到了60 GB/s。

为了让芯片变得更薄更小,芯动科技已经研发出了一种全新的封装方案。从一开始,他们就在朝着这个方向努力,将 ABF材料从芯片中剥离出来,让芯片不再需要衬底,从而解决了散热问题。"这是我们第一次尝试这样的封装方式,并且做出了工业上最小最薄的图形处理器。

M.2加速卡将体积与性能优点结合在一起。

考虑到终端设备上可供使用的接口有限, Core公司为 M.2加速卡选用了更为普遍的闪存驱动接口,该接口已广泛应用于个人计算机等设备,因而更易被企业所接受,无需对芯片接口进行修改即可快速实现功能。

很多客户已经注意到了 M.2加速卡,它可以帮助公司规避客户定制的风险,为客户提供更多的个性化选择。

本项目的研究成果将在人工智能计算,机器视觉,泛安全,内容过滤等方面发挥重要作用。

第三, M.2加速卡被提供来支持" Hexagon Warrior"处理器。

在大型设备向终端设备、人工智能电脑等新兴领域转移之际, CoreActive能快速推出具有创新性的M.2加速卡,其关键是可配置并行处理器(RPP)架构。这是AAE7100的杀手锏,其核心就是 M.2加速卡。

KCOM半导体公司称 RPP为“六边形战士”,是一种专门用于并行计算的芯片体系结构。本项目将充分发挥 NPU的高效性、 GPU的高通用性以及 DSP的低延时特性,为图像处理、视觉计算、信号处理等高效率并行计算及人工智能应用提供新的解决方案。

在一定条件下,采用同一种工艺的 Core Power GPGPU芯片,其性能可比 NVIDIA®芯片提升50%以上。

探究这种结构就是他们建立公司的主要理由。芯片行业的特点就是研发周期长,芯片需要在保持芯片性能的前提下,在五到六年的时间里,不断地适应市场的变化,这样才能更快地抓住诸如人工智能计算之类的机会,开发出具有显著效益的产品。

研究 RPP体系结构要追溯到 NVIDIA发布 GPGPU概念之前和之后。那时, CorePower的创始团队就开始探索如何在性能,功耗,成本,延时以及部署速度等方面取得更好的平衡。

为此,自2011年至2016年,他们一直致力于将 NPU的高效性和 GPU的多样性有机地结合起来,形成了 RPP体系结构。

科通芯城的产品研发周期分为两期,科通芯城负责芯片研发与基础软件研发,因此从企业需求来看,这一基础型芯片研发仅需2-3个月即可实现产品性能,极大地缩短了应用周期。

原因就是为了推销芯片。他还说,目前人工智能技术还处于起步阶段,相对于其它传统工业设备来说,真正落地的产品还很少,所以产品的定义也在不断变化。以 RPP架构为核心的产品,可以前瞻性地解决芯片在更多场景下所能满足的通用需求,而这一点与其已有的终端产品存在“70%的差距”。

为了应对最近市场的变化,2.2加速卡已经开始快速发货.目前 M.2加速卡主要应用于人工智能电脑、工业视觉以及人工智能服务器等厂商。现在, M.2加速卡已经交付给了拥有基因检测系统和人工智能服务器的用户。

毫无疑问,科通芯城的这款创新产品,将会在大型终端上激起无限的遐想。

结论:抛弃大模型,只关注 GPGPU厂商

大型机市场的蓬勃发展,为国内 GPGPU厂商提供了更多机会,同时,应用端对于大型机的需求,也为国内厂商提供了广阔的商机。

芯原自创立之日起,始终以前瞻的眼光,以 RPP架构为核心,创造出更多功能化的产品,以满足企业客户更具普遍性的需要,以更具弹性的应变能力应对市场的变化。

随著 M.2加速卡量产及人工智能电脑量产化,大容量终端产品的开发将加快。芯原亦致力于在大规模机型给行业带来的变革中寻找市场机会。

很明显,积累关键技术和前瞻性技术是抓住产业机遇的关键。

0 阅读:6

小成聊科技

简介:每天为大家更新最新内容