算力技术:引领数字时代的新变革

薪科技快评 2024-01-29 09:51:24

* 算力需求激增:人工智能、隐私计算、AR/VR、基因测试等新型应用对算力的需求不断增长。

* 大模型算力需求远超摩尔定律:以ChatGPT为代表的大模型对算力的需求增速远超摩尔定律增速。

* 算力技术发展路径:云计算、边缘计算、量子计算、类脑计算等多种技术并存,不断优化算力使用效率。

* 算力未来发展趋势:算力技术将朝着更低成本、更高效、更安全的方向发展。

随着人工智能、隐私计算、AR/VR 以及基因测试/生物制药等新型高性能计算应用的不断普及,对算力的需求也不断持续增加。比如,以ChatGPT 为代表的大模型需要巨大算力支撑。大模型对算力的需求增速远大于摩尔定律增速。

随着微处理器的出现,算力的发展开始遵循摩尔定律的趋势,在单位芯片面积中增加门电路数量,提升处理器性能,同时降低成本和功耗。然而,近年来越来越多的挑战涌现,单纯缩微无法满足不断攀升的应用需求,算力提升面临严峻考验。路数量来增加处理器算力,降低处理器成本和功耗。但近年来这条路已经遇到越来越大的困难,通过持续缩微来提升性能已经无法满足应用的需求。

More Moore:继续追求更高的晶体管单位密度。

- 晶体管工艺结构从鳍式结构 FinFET 到环形结构 GAA,以及纳米片、纳米线等技术手段有望将晶体管密度继续提升 5 倍以上。

- 这一路线面临成本和功耗方面的巨大挑战。More Moore:继续追求更高的晶体管单位密度。比如晶体管工艺结构从鳍式结构FinFET 到环形结构 GAA,以及纳米片、纳米线等技术手段有望将晶体管密度继续提升 5 倍以上。但这条路在成本、功耗方面的挑战非常大。

Beyond CMOS:探索新材料和新工艺

为了突破CMOS工艺的限制,研究人员正在探索各种新材料和新工艺,包括:

- 碳纳米管、二硫化钼等二维材料的新型制备工艺。

- 利用量子隧穿

晶体管的新型机制。

这些新技术有望在未来实现更高的集成度、更低的功耗和更高的性能。然而,这些技术也存在着较大的不确定性,距离成熟应用还有很长一段距离。Beyond CMOS:放弃 CMOS 工艺,寻求新材料和新工艺。比如使用碳纳米管、二硫化钼等二维材料的新型制备工艺,和利用量子隧穿效应的新型机制晶体管。但这条路径的不确定性较大,离成熟还需要很长时间。

1、芯片架构:DSA & 3D 堆叠 & Chiplet

DSA(领域专用架构)芯片专为特定领域应用而设计,采用高效架构,通过专用内存最小化数据移动、根据应用需求调整计算或存储资源分配、优化数据类型、采用特定编程语言和指令等方式,使DSA芯片在同等晶体管资源下能达到与ASIC芯片相近的性能和能效,同时保持灵活性。相比ASIC芯片,DSA芯片在设计和生产过程上都更快,通常只需要6-12个月,成本也更低。DSA芯片广泛应用于人工智能、大数据处理、图像处理等领域,是定制化芯片的替代选择,具有巨大市场潜力。 针对特定领域的应用采用高效的架构,比如使用专用内存最小化数据搬移、根据应用特点把芯片资源更多侧重于计算或存储、简化数据类型、使用特定编程语言和指令等等。与 ASIC 芯片(Application Specific Integrated Circuit,专用集成电路)相比,DSA 芯片在同等晶体管资源下具有相近的性能和能效,并且最大程度的保留了灵活性和领域的通用性。

DSA定制芯片架构,引领AI芯片新时代

中兴通讯提出的“夸克”芯片架构,针对深度神经网络的计算特点,将算力抽象成张量、向量和标量引擎,并通过独立的控制引擎(CE)对各种 PE 引擎进行灵活编排和调度,从而高效实现各种深度学习神经网络计算,完成自然语言处理、AI 检测、识别和分类等各种人工智能应用。

DSA芯片在相同功耗下可以取得比传统CPU高数十倍甚至几百倍的性能。这是由于DSA芯片采用软硬件协同设计的定制化方案,可以针对特定的人工智能算法和应用进行优化,从而大幅提高计算效率。

DSA芯片的出现,标志着AI芯片领域的新时代已经到来。这种定制化的芯片架构,将引领人工智能技术的发展,并推动人工智能在各行各业的广泛应用。经网络的计算特点,将算力抽象成张量、向量和标量引擎,通过独立的控制引擎(CE)对各种 PE 引擎进行灵活编排和调度,从而可以高效实现各种深度学习神经网络计算,完成自然语言处理、AI 检测、识别和分类等各种人工智能应用。由于采用软硬件协同设计的定制化方案,DSA 芯片在相同功耗下可以取得比传统 CPU 高数十倍甚至几百倍的性能。

3D堆叠技术:突破摩尔定律局限,提升芯片集成度

摩尔定律在2D空间面临瓶颈,3D堆叠技术应运而生。不改变封装面积,在垂直方向叠放芯片,增强集成度。3D堆叠架构解决密集计算的内存墙问题,扩展性更强,能效比更高。 2D 空间进行评估的,随着芯片微缩愈加困难,3D 堆叠技术被认为是提升集成度的一个重要技术手段。3D 堆叠就是不改变原本封装面积情况下,在垂直方向进行的芯片叠放。这种芯片设计架构有助于解决密集计算的内存墙问题,具有更好的扩展性和能效比。

Chiplet技术:突破摩尔定律,推动芯片创新

Chiplet技术,一种创新的芯片架构,正在颠覆传统芯片设计理念,为摩尔定律的延续带来新契机。

模块化设计,提升良率,降低设计复杂度

Chiplet技术将芯片设计模块化,将大型芯片小型化。这种方法可以有效提升芯片良率,降低芯片设计的复杂程度。

先进封装,降低制造成本

Chiplet技术采用先进封装技术,将不同芯粒根据需要选择合适的工艺制程分开制造,再进行组装。这种方法可以有效降低制造成本。

Chiplet技术优势:

- 延续摩尔定律,实现持续创新

- 提高芯片良率,降低设计复杂度

- 降低制造成本,提升性价比

- 加速芯片设计和制造周期

- 增强芯片可移植性,实现快速升级

Chiplet技术正在引领芯片行业的新变革,有望加速新一代计算平台的开发,推动芯片行业的持续创新。 技术被认为是延续摩尔定律的关键技术。首先 Chiplet 技术将芯片设计模块化,将大型芯片小型化,可以有效提升芯片良率,降低芯片设计的复杂程度。其次,Chiplet 技术可以把不同芯粒根据需要来选择合适的工艺制程分开制造(比如核心算力逻辑使用新工艺提升性能,外围接口仍采用成熟工艺降低成本),再通过先进封装技术进行组装,可以有效降低制造成本。

Chiplet:开启芯片设计新时代

Chiplet,又称芯粒,是一种先进的芯片设计方式,它将芯片分解成多个小芯片,然后通过互联技术将这些小芯片组装成一个完整的功能性芯片。

与传统芯片方案相比,Chiplet具有设计灵活性高、成本低、上市周期短等优势,因此受到半导体行业广泛关注。

2022年3月2日,UCIe产业联盟成立,致力于满足客户对可定制封装互联互通要求,该联盟汇集了英特尔、AMD、Arm、高通、三星、台积电等众多行业巨头。

随着互联技术的不断发展和完善,Chiplet产业将逐渐成熟,并将形成包括互联接口、架构设计、制造和先进封装的完整产业链。

Chiplet将重塑芯片制造业,开启芯片设计新时代。,Chiplet 模式具有设计灵活性、成本低、上市周期短三方面优势。Chiplet 技术面临的最大挑战是互联技术,2022 年 3 月 2 日,“UCIe 产业联盟”成立,致力于满足客户对可定制封装互联互通要求。Chiplet 产业会逐渐成熟,并将形成包括互联接口、架构设计、制造和先进封装的完整产业链。

2、存算一体使得计算和存储从分离走向联合优化

存算一体:突破内存墙和功耗墙

存算一体技术通过优化设计,减少无效数据搬移、增加数据读写带宽、提升计算能效比,突破内存墙和功耗墙的限制。在存储密集型应用中,存算一体技术可有效提升运算性能,降低功耗。无效搬移、增加数据的读写带宽、提升计算的能效比,从而突破现有内存墙和功耗墙的限制。

存算一体技术通过创新系统架构、体系架构和微架构,实现计算和存储的一体化,大幅提升数据处理效率和能效。

系统架构层面:增加数据逻辑层,实现近存计算,减少数据搬移,提升计算能效比。

体系架构层面:采用先进技术合封计算逻辑和存储单元,增加数据带宽、优化数据搬移路径、降低系统延时。

微架构层面:进行存储和计算的一体化设计,实现存内计算,基于传统存储材料和新型非易失存储材料,在存储功能的电路内同时实现计算功能,取得最佳的能效比。

存算一体技术颠覆了传统计算和存储分离的架构,为云计算、大数据等领域带来革命性变革。存储单元中间增加数据逻辑层,实现近存计算,减少数据中心内、外数据低效率搬移,从系统层面提升计算能效比;体系架构层面,利用 3D 堆叠、异构集成等先进技术,将计算逻辑和存储单元合封,实现在存计算,从而增加数据带宽、优化数据搬移路径、降低系统延时;微架构层面,进行存储和计算的一体化设计,实现存内计算,基于传统存储材料和新型非易失存储材料,在存储功能的电路内同时实现计算功能,取得最佳的能效比。

(一)系统架构层面的近存计算(Processing Near Memory)

近存计算:数据本地处理,提升效率与安全

近存计算通过在数据缓存位置引入算力,实现本地处理并直接返回结果,减少数据移动,加快处理速度,提升安全性。

通过在Data-Centric类应用中增加数据逻辑层,整合数据逻辑布局功能和应用服务数据智能功能,并引入缓存计算,减少数据搬移。

在“东数西算”工程中,近存计算可解决数据无序流动的低能效问题,提升整体处理效率。移动,加快处理速度,并提升安全性。通过对 Data-Centric 类应用增加一层数据逻辑层,整合原系统架构中的数据逻辑布局功能和应用服务数据智能功能,并引入缓存计算,从而减少数据搬移。在“东数西算”工程中,可以通过设置近存计算层,解决数据无序流动的低能效问题。

(二)体系架构层面的在存计算(Processing In Memory)

存计算:存储器内部集成计算引擎的新技术

存计算结合了存储器和计算功能,可直接在数据读写的同时完成简单处理,无需将数据拷贝到处理器中进行计算。

特点:

- 减少数据搬移带来的开销

- 降低功耗

- 提高数据处理速度

应用:

- 图像处理

- 视频分析

- 机器学习

产业化:

- 目前主要由存储器厂商推动

- 有望在未来几年内实现大规模商用 DRAM。其目标是直接在数据读写的同时完成简单处理,而无需将数据拷贝到处理器中进行计算。例如摄氏和华氏温度的转换。在存计算本质上还是计算、存储分离架构,只是将存储和计算靠近设计,从而减少数据搬移带来的开销。目前主要是存储器厂商在推动其产业化。

(三)微架构层面的存内计算(Processing Within Memory)

存内计算,即将计算单元嵌入到存储器中,在机器学习、密码学、微分方程求解等领域展现出巨大潜力。其优势在于高度并行处理矩阵向量乘积,提供前所未有的计算速度。机器学习、密码学、微分方程求解等方面有较好的应用前景。

存内计算:突破传统计算架构,实现高效矩阵向量乘加

存内计算采用计算、存储统一设计的架构,以深度神经网络的矩阵向量乘加操作为例,通过DAC、单元阵列、ADC和其他辅助电路,实现对存储数据的读写操作。不同存储单元输出电流自动累加后输出到ADC单元进行采样,转换成输出的数字信号,从而完成矩阵向量乘加操作。

存内计算突破了传统计算架构的瓶颈,实现了高效的计算和存储统一,具有低功耗、高速度、高密度等优势,是下一代人工智能芯片的重要发展方向。,由输入端的 DAC、单元阵列、输出端的 ADC 以及其他辅助电路组成。存储单元中存放权重数据,输入经过 DAC 转换后变成对存储数据的读写操作,利用欧姆定律和基尔霍夫定律,不同的存储单元输出电流自动累加后输出到 ADC 单元进行采样,转换成输出的数字信号,这样就完成了矩阵向量乘加操作。

3、基于对等系统的分布式计算架构

传统计算系统面临算力墙,异构计算架构受限。

- 传统计算系统以 CPU 为中心,业务激增导致系统处理能力要求越来越高。

- 摩尔定律放缓,CPU 处理能力增长困难,出现算力墙。

- 领域定制 (DSA) 和异构计算架构提升系统性能,但改变不了以 CPU 为中心的架构体系。

- 加速器之间的数据交互依赖 CPU 中转,CPU 容易成为瓶颈,效率低下。

采用革命性的 Chiplet 技术,打破传统计算架构瓶颈。

- Chiplet 技术将不同功能的芯片封装在一起,实现异构计算加速。

- Chiplet 互连技术实现芯片之间的高速、低功耗数据传输。

- Chiplet 架构使系统可扩展性更高,满足不同算力需求。

- Chiplet 技术为人工智能、高性能计算等领域提供算力解决方案。 CPU 为中心进行搭建,业务的激增对于系统处理能力要求越来越高,摩尔定律放缓,CPU 的处理能力增长越来越困难,出现了算力墙。通过领域定制(DSA)和异构计算架构可以提升系统的性能,但是改变不了以 CPU 为中心的架构体系,加速器之间的数据交互通常还是需要通过 CPU 来进行中转,CPU 容易成为瓶颈,效率不高。

基于 xPU 的分布式计算架构:

- 对等系统以 xPU 为核心,包含多种异构算力资源,形成新型分布式计算架构。

- xPU 主要负责节点内异构算力的接入、互联,以及节点间的互联。

- 节点内算力资源处于完全对等的地位,xPU 根据芯片特点及能力分配任务。

- xPU 内置通用处理器核,对节点内的算力资源进行管理和二级调度。

- 通用处理器核分布在各个节点中,形成分布式计算环境。 xPU(以数据为中心的处理单元)为中心的对等系统可以构建一个新型的分布式计算架构。如图 4.5 所示,对等系统由多个结构相似的节点互联而成,每个节点以 xPU 为核心,包含多种异构的算力资源,如 CPU、GPU 及其它算力芯片。xPU 主要功能是完成节点内异构算力的接入、互联以及节点间的互联,xPU 内部的通用处理器核可以对节点内的算力资源进行管理和二级调度。节点内不再以 CPU 为中心,CPU、GPU 及其它算力芯片作为节点内的算力资源处于完全对等的地位,xPU 根据各算力芯片的特点及能力进行任务分配。

1. 基于内存语义的高效通信协议

- 新型传输协议:read/write 等内存操作语义,对等、无连接、授权空间访问通信模式,提高通信效率。

- 与现有协议对比:低延时、高扩展性优势,超越 TCP、RoCE 等现有协议。

2. 节点内高速数据交互

- 算力芯片直连:xPU、CPU、GPU 及其他算力芯片通过低延时总线直接数据交互,消除数据传输瓶颈。

3. 基于内存语义的 Fabric

- 高性能转发面:xPU 内部的高性能转发面实现基于内存语义的低延时 Fabric,构建分布式算力系统。

4. xPU 内置加速模块

- 安全、网络、存储加速:xPU 内置安全、网络、存储加速模块,降低算力资源消耗,提高节点性能。用read/write 等对内存操作的语义,实现对等、无连接、授权空间访问的通信模式,通过多路径传输、选择性重传、集合通信等技术提高通信效率。与 TCP、RoCE 等现有传输协议相比,基于内存语义的传输协议基于低延时、高扩展性的优势。节点内 xPU、CPU、GPU 及其他算力芯片之间通过基于内存语义的低延时总线直接进行数据交互。节点间通过 xPU 内部的高性能转发面实现基于内存语义的低延时 Fabric,从而构建以节点为单位的分布式算力系统。同时 xPU 内置安全、网络、存储加速模块,降低了算力资源的消耗,提高了节点的性能。

- 基于对等系统架构的服务器可视为一个“分布式计算系统”,促进产业链分工协作,发挥各自优势。

- xPU卸载、库/外OS 演进、APP direct 模式解决公共能力瓶颈,整体性能不再依赖于先进工艺。

- 对等内存语义互联实现系统平滑扩展,将庞大分布式算力视为一台单一的“计算机”。点独立规划开发,发挥各自优势。比如 xPU 卸载 + 库/外 OS 演进 + APP direct 模式解决公共能力(存储、网络),整体性能的提升不再依赖于先进工艺;基于对等内存语义互联实现系统平滑扩展,将庞大分布式算力视为一台单一的“计算机”。

4、支撑算网融合的IP网络技术实现算力资源高效调度

算网深度融合:解锁分布式算力新格局

算网深度融合是当今信息通信技术领域的一大变革性趋势,它正在推动算力资源和网络连接的协同调度,满足各类应用对于时延、能耗、安全的多样化需求。

算网深度融合的两大驱动力:

* 需求侧:实现算力和网络的协同调度,满足业务对算力资源和网络连接的一体化需求。例如,高分辨率的VR云游戏,既需要专用图形处理器(GPU)计算资源完成渲染,又需要确定性的网络连接来满足10毫秒以内的端到端时延要求。

* 供给侧:借助于网络设施天生的无处不在的分布式特点,算网深度融合可以助力算力资源也实现分布化部署,满足各类应用对于时延、能耗、安全的多样化需求。

这种分布式的算力资源部署方式,可以有效解决传统集中式算力资源部署的局限性,带来诸多优势:

* 降低时延:分布式算力资源可以更靠近用户,减少数据传输的距离,从而降低时延。

* 节省能耗:分布式算力资源可以根据需求动态调整,避免资源浪费,从而节省能耗。

* 增强安全:分布式算力资源可以分散部署,降低单点故障风险,从而增强安全性。

算网深度融合正在开创分布式算力新格局,为各类应用提供更加灵活、高效、安全的算力服务。算力资源和网络连接的一体化需求。比如,高分辨率的 VR 云游戏,既需要专用图形处理器(GPU)计算资源完成渲染,又需要确定性的网络连接来满足 10 ms 以内的端到端时延要求。二是供给侧,借助于网络设施天生的无处不在的分布式特点,算网深度融合可以助力算力资源也实现分布化部署,满足各类应用对于时延、能耗、安全的多样化需求。

算网融合为 IP 网络技术带来了全新挑战。在互联网架构中,算对应上层应用,网对应底层连接,IP 技术居中承上启下。传统 IP 网络遵循端到端和分层解耦设计,业务可脱离网络独立发展,降低创新门槛,提高部署便利性。然而,这种设计导致业务和网络“去耦合”,业务只能按照“尽力而为”模式运行。

算网融合要求网络具备更强的算力,以满足业务对实时性、可靠性和安全性等方面的更高要求。传统 IP 网络难以满足这些需求,需要进行技术革新和优化。 IP 网络技术提出了挑战。在互联网整个技术架构中,通常来说算对应着上层的应用,网对应着底层的连接,IP 技术作为中间层,起到承上启下的枢纽作用。传统的IP 网络遵循的端到端和分层解耦的架构设计,使得业务可以脱离网络而独立发展,极大降低了互联网业务的创新门槛,增加了业务部署的便利。但是在这样的设计架构之下,业务和网络处于“去耦合“的状态,最终绝大多数业务只能按照“尽力而为”的模式运行。

服务感知网络(SAN)——中兴通讯的创新方案,旨在将业务与网络紧密结合,实现算力资源和网络资源的协同和精细化管理。它以业务需求为导向,通过网络感知业务质量和性能,并根据业务需求动态调整网络资源分配,从而提高网络资源利用率,提升用户体验。SAN方案为未来IP网络面临的挑战提供了一个切实可行的解决方案,具有广阔的应用前景。

服务感知网络的优势:

- 业务感知:根据业务需求动态调整网络资源分配,优化业务性能。

- 精细化管理:提供精细化的网络资源管理和控制能力,提高网络资源利用率。

- 提升用户体验:通过业务感知和精细化管理,提升用户体验,满足用户对高品质网络服务的需求。未来 IP 网络面临的一大挑战。中兴通讯提出的“服务感知网络(SAN,Service AwarenessNetwork)”是在这个方面的创新尝试

服务感知网络:算力与网络服务的智联新境界

通过网络和算力资源的优化协同与动态调度,服务感知网络实现了算力服务与网络服务的无缝衔接与智能管理。这种一体化供给方式,保证了服务质量、网络效率和资源利用率的同时,更为节能减排创造了有利条件。

服务感知网络从供给端入手,从根本上解决了资源利用率低、能耗居高不下等问题,为用户提供了更加优质的网络体验。

优化后的字数:86既保障了服务质量,又能将节能减排的要求落到实处。

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

0 阅读:3

薪科技快评

简介:薪科技评说,发现技术的点滴,记录科学的飞跃!