半导体是数字时代的一项基础技术。美国硅谷的名字正是源自于此。过去半个世纪以来,计算技术的革命改变着社会的方方面面,而半导体技术正是这场革命的核心。
自英特尔1971年推出全球第一个微处理器以来,计算能力一直以令人惊叹的步伐发展演进着。根据摩尔定律,当前的计算机芯片比50年前的芯片在功能上强大数百万倍。
尽管数十年来处理能力飞速增长,但直到现在,计算机芯片的基本体系结构仍然没有太大改变。很大程度上说,芯片的创新,需要进一步缩小晶体管的体积,让集成电路可以容纳更多晶体管。数十年来,英特尔和AMD等厂商通过提高CPU性能而取得了长足的发展,被Clayton Christensen视为“持续的创新”。
今天,这种情况正在发生着巨大的变化。人工智能(AI)引发了半导体创新的“新黄金时代”——机器学习带来独特的市场需求和无限的机会,第一次激发了企业家们,去重新思考芯片架构的基本原则。
他们的目标,是设计一种专为AI设计的新型芯片,为下一代计算提供动力,这也是当前所有硬件领域最大的市场机遇之一。
新的计算范式在计算技术发展的历史中,主流的芯片架构一直是CPU。如今,CPU无处不在,它为笔记本电脑、移动设备和大多数数据中心提供动力。
1945年,传奇人物约翰·冯·诺伊曼(John von Neumann)构思了CPU的基本架构。值得注意的是,此后他的这一设计基本没有太大变化,今天,大多数计算机仍是基于冯·诺依曼理论的机器。
CPU的灵活性使得它有各种各样的用途:CPU是通用的,能够有效执行软件所需的任何计算。不过尽管CPU的主要优势是多功能性,然而如今领先的AI技术需要的,是一种非常特殊且密集的计算。
深度学习需要迭代执行数百万甚至是数十亿个相对简单的乘法和加法步骤。深度学习以线性代数为基础,在根本上是基于试错法的:对参数进行调整,对矩阵进行乘法运算,随着模型自身的不断优化,在整个神经网络中反复进行数字求和。
这种重复性的、计算量巨大的工作流程,对于硬件体系结构有很重要的要求。「并行化」变得至关重要,「并行」指的是:处理器能够同时、而不是一个接一个地执行多个计算的能力。与之紧密相关的是,深度学习涉及大量数据的连续转换,因此让芯片内存和计算核心尽可能靠近数据所在的位置,可以减少数据移动,从而大幅提升速度和效率。
CPU尚不足以支持机器学习的独特需求。CPU是按顺序而非并行地处理计算任务,CPU的计算核心和内存通常位于单独的模块上,通过带宽受限的通信系统(总线)进行连接。这就造成了数据移动的瓶颈,称为“冯·诺依曼瓶颈”,导致的结果就是,在CPU上训练神经网络的效率非常低。
随着机器学习正在日益普及,传统芯片已经无法应对现代AI算法的要求,这一点正变得愈加突出。正如AI专家Yann LeCun最近所说的:“如果你能穿越到未来五年或者十年,看看计算机大部分时间都在做些什么的话,我认为很可能是机器学习之类的事情。”
这时候,就需要GPU来推动AI的繁荣发展了。GPU架构是由英伟达(Nvidia)在1990年代后期为游戏应用开发的。当时GPU被专门用于连续处理大量数据,以高帧速率渲染计算机游戏画面。与CPU不同的是,GPU可以并行地运行数千个计算任务。
在2010年代初,AI领域开始意识到,Nvidia的游戏芯片实际上非常适合处理机器学习算法所需的工作负载,于是,GPU幸运地找到了新的目标市场。Nvidia抓住了这个机遇,将自己定位为“AI硬件市场领先提供商”,结果收获了惊人的收益——从2013年到2018年,Nvidia的市值增长了20倍。
然而,正如Gartner分析师Mark Hung所说,“大家知道GPU并非针对AI工作负载进行了优化。”虽然GPU已经被AI领域广泛采用,但它并非为AI而生。
近些年来,有一大批企业家和技术人员开始重新构想计算机芯片,从头开始对其进行优化,以释放AI的无限潜力。Alan Kay的一段话令人难忘:“真正认真对待软件的人,应该自己制造硬件。”
过去两年中,有5个芯片独角兽涌现,很多初创公司的估值令人瞠目结舌。传统CPU巨头英特尔为了避免被颠覆,所以进行了两项重大收购:2016年4月以4.08亿美元收购了Nervana Systems,2019年12月以20亿美元收购了Habana Labs。未来几年,这场竞赛将继续进行下去,争夺这个规模数千亿美元的市场。
谁会是下一个英特尔?巨大的市场机会,再加上巨大的技术挑战,激发了一大批惊人的创意,意图打造出一款理想的AI芯片。
新一代AI芯片初创企业中,最引人注目之一的是Cerebras Systems公司。简单地说,大胆的Cerebras开发了有史以来最大的芯片。最近,Cerebras的市值达到了17亿美元,已经从Benchmark和Sequoia等顶级投资方那里获得了2亿美元。
Cerebras芯片的规格令人难以置信,要比典型的微处理器大60倍,是史上第一个可以容纳超过1万亿个晶体管(准确地说是1.2万亿个)的芯片。它的片上内存为18 GB,也是有史以来最高的。
将所有计算能力打包到单个芯片上,好处是非常诱人的:数据传输效率大大提升,内存与处理并置,可以做大规模的并行处理;但是,工程上的挑战也是极大的,几十年来,制造晶圆级芯片一直是半导体梦寐以求的,但从未实现。
Cerebras首席执行官Andrew Feldman表示:“每个规则、每个工具和每个制造器件,都是为巧克力曲奇大小的正常尺寸芯片设计的,而我们打造的芯片是曲奇盘子那么大。因此每个步骤我们都要进行全新设计。”
Cerebras的AI芯片已经投入商用:上周,阿贡国家实验室(Argonne National Laboratory)宣布,将使用Cerebras的芯片来对抗新型冠状病毒。
另外一家采用了全新芯片设计方法的公司,是位于美国湾区的Groq。与Cerebras相比,Groq的芯片专注于推理,而不是模型训练。Groq的创始团队拥有世界一流的领域专业知识:作为最早也是迄今为止最成功的AI芯片之一,Google TPU项目的十个原始成员中,有八个人加入了Groq团队。
Groq颠覆了业界的传统观念,正在打造批量为“1”的芯片,也就是说,一次性处理1个样本。据Groq称,这种架构几乎可以实现瞬时推理,而无需牺牲性能,这对于自动驾驶汽车等时间敏感型应用是至关重要的。Groq的芯片主要是软件定义的,具有独特的灵活性,是面向未来的。
Groq最近宣布,它的芯片实现了每秒1万亿次运算的速度。如果这是真的话,将成为有史以来速度最快的单模片芯片。
还有另一家公司,没有哪家公司比它具有更出色的技术愿景了,这就是Lightmatter。Lightmatter是由几位光子学专家创立的,总部位于美国波士顿。Lightmatter正在打造一种AI微处理器,但不是由电信号驱动,而是由光束驱动的。目前,Lightmatter已经从GV、Spark Capital和Matrix Partners等投资方那里筹集了3300万美元,以实现这一愿景。据Lightmatter称,这种独特的光技术让芯片的性能比现有解决方案高10倍。
这个领域还有其他公司值得关注。两家中国公司——地平线机器人(Horizon Robotics)和寒武纪科技(Cambricon Technologies),分别获得了更多的融资和更高的市值。
位于美国帕洛阿尔托的SambaNova Systems公司也得到了丰厚的资金,且技术精湛,尽管有关SambaNova的细节仍然很少,但它的技术似乎特别适合自然语言处理。
其他值得注意的初创公司还包括:Graphcore、Wave Computing、Blaize、Mythic和Kneron。
不仅如此,很多科技巨头也已经开始自主开发专用的AI芯片,例如上述的谷歌TPU。谷歌从2015年开始研发TPU,领先于技术曲线的发展;去年12月,亚马逊大张旗鼓地公布了Inferentia AI;与此同时,特斯拉、Facebook和阿里巴巴以及其他科技巨头也都行动起来了,开始内部研发AI芯片。
总结眼下,一场为即将而来的AI时代开发所需的硬件竞争正在上演。如今,半导体行业的创新之多,是自硅谷创立之初以来从未有过的,巨量资金不断地投入其中。
未来几年,下一代芯片将塑造人工智能领域的雏形和轨迹。用Yann LeCun的话来说:“硬件能力...激励但却限制了AI研究人员想象并追求的想法。各种我们可以使用的工具正在不断刷新我们的想法,这一点我们不得不承认。”