中国团队开发全自旋神经形态硬件,为大规模低功耗计算开辟道路

问芯科技吗 2024-06-15 11:34:40

在 AI 硬件领域占据主导地位的英伟达 GPU 存在能效较低问题,这也是为什么很多公司在开发专用 AI 芯片的原因。专用硬件可以极大提升 AI 模型的计算速度。

近日,中国科学院微电子研究所(以下简称“微电子所”)的一项研究提供了一种新的硬件开发路径,可实现高能效和可扩展的神经网络架构。相关论文以《基于磁畴壁隧道结的全自旋神经形态计算硬件中的人工突触和神经元》(Domain wall magnetic tunnel junction-based artificial synapses and neurons for all-spin neuromorphic hardware)为题发表在 Nature Communications。微电子所博士研究生刘龙为第一作者,微电子所邢国忠研究员、刘明院士为共同通讯作者。

图 | DW-MTJ 基全自旋神经形态计算硬件研制及电路实现演示(来源:微电子所)

如今的 AI 领域有一种不断扩展深度学习模型规模的趋势。模型变得越来越大,参数量已经达到数万亿级别。这种规模的扩展有助于提高模型的精度和能力,但也带来了显著的计算资源和能耗问题,导致高昂的成本和环境影响。

为了应对深度学习的可持续性挑战,必须在硬件架构级别进行创新,以提高能效和计算效率。

传统的通用计算芯片(如 GPU 和 CPU)主要都是基于冯·诺依曼架构设计。该架构几十年来一直是计算机系统的主流架构。然而,这种设计方式面临着“存储墙”等问题,极大限制了系统的整体效率,特别是在处理大规模数据时。

随着计算需求的增加和性能瓶颈的显现,业界也在积极探索新的架构设计,例如神经形态计算,像英特尔正在开发神经形态芯片 Loihi。

神经形态计算试图模仿大脑神经元和突触的结构和功能,以实现更高效的并行处理和低功耗计算,能提供传统架构无法比拟的性能和效率。

当前的深度神经网络(如 GPT-4)也是在模仿人脑的生物结构和工作原理,并已在图像、语音和视频等多个领域显示出卓越的优势。

因此,为大模型等 AI 应用设计专用神经形态芯片正逐渐兴起。要将这些 AI 功能集成到硬件芯片中,尤其是神经形态芯片中,需要开发出能模拟深度神经网络工作原理的高效突触和神经元器件。

深度神经网络由多层组成,每一层中的神经元与下一层中的神经元通过突触连接。这些突触具有可调整的权重,以优化网络的性能。每个输入信号都与相应突触的权重相乘,然后将这些乘积求和,再经过一个非线性激活函数处理。经过处理后的输出信号会传递到下一层,作为下一层的输入信号。神经网络通过这个过程最终能够处理和分析复杂的数据。

然而,在实际硬件上实现这种高效计算,也就是模拟生物神经元和突触的功能,存在许多技术难题。

科研人员长期致力于探索基于新型非易失性存储器(NVMs)和自旋电子器件的硬件实现方案。据微电子所官网了解:“目前,已有多种类型的 NVMs 被用于实现神经网络中各种运算并显示出广阔前景,其中自旋电子器件凭借自身丰富和可控的自旋动力学特性, 被认为是实现模拟突触和神经元功能的理想候选之一。”

本次研究中,研究人员成功开发了基于全电控磁畴壁(DW)动力学特性的磁畴壁隧道结(DW-MTJ)器件,并实现了线性权重更新和非线性激活函数功能。

实验证明,这些 DW-MTJ 集成器件能够实现全自旋人工突触和神经元功能,为开发高度可扩展的集成神经形态电路奠定了基础。全自旋意味着所有信号处理都是通过电子的自旋特性完成的,而不是电荷。这种方法可以提高能效和处理速度。

图 | 开发的 DW-MTJ 全自旋神经元和神经形态计算电路仿真及硬件实验验证(来源:微电子所)

具体来说,研究团队利用自旋-轨道耦合和界面 Dzyaloshinskii-Moriya 相互作用(DMI)的协同效应,开发了一种可编程的多态突触器件。该器件能够在多个状态之间切换,类似于生物突触的可塑性,并且具有高可靠性。

计算表明,通过控制 5d 和 3d 原子间距的压缩,可以增强 DMI 相互作用,从而稳定磁畴壁的钉扎。磁畴壁钉扎指磁畴壁被固定在特定位置,防止其自由移动,从而实现稳定的多态特性。

基于自旋-轨道矩对磁畴壁的高效驱动和可靠钉扎,团队展示了具有 Sigmoid 型激活函数的自旋神经元。这种自旋神经元最高工作频率达 20 MHz,能耗仅为 508 fJ/spike,显示出高效能和低功耗的特点。

图 | 基于 DW-pMTJs 的自旋突触装置(来源:Nature Communications)

值得一提的是,新开发的自旋电子器件与当前标准的 CMOS 技术(互补金属氧化物半导体技术)和磁阻随机存取存储器(MRAM)工艺兼容,不需要使用任何特殊材料、复杂结构或额外的掩模,使其成为神经形态器件和芯片应用的有前途的候选者。

在硬件上高效地实现深度学习网络所需的突触和神经元功能,可以带来性能提升、能效优化、应用扩展、规模化训练和推理的便利,突破传统架构的限制,并带来显著的经济效益。

尽管距离取代目前的 AI 芯片或还存在一定差距,但神经形态芯片在一些需要实时处理的端侧设备上前景广阔。

现在算力不再局限于云端,而是向边缘设备扩展,比如物联网、自动驾驶、机器人等,以提供更低延迟和更高效的服务。

未来可能会出现更多的混合架构,利用冯·诺依曼架构处理通用任务,同时使用神经形态芯片处理专门任务。这样可以在性能和能效之间找到平衡。开发专用硬件的初始成本虽然较高,但一旦实现规模化生产,其单位成本可能大幅降低。企业通过投资神经形态芯片等类似技术,可满足不断变化的市场需求,从而带来竞争优势。

总体上,本次研究成果在神经形态计算和自旋电子学领域具有重要意义,为开发高能效、高可靠且可扩展的神经网络硬件提供了新的可能性。这将有助于神经形态计算芯片的实际应用。

参考:

https://www.nature.com/articles/s41467-024-48631-4#author-information

http://www.ime.ac.cn/zhxx/zhxw/202406/t20240611_7186809.html

0 阅读:0

问芯科技吗

简介:感谢大家的关注