在过去的几年里,先进封装已成为半导体领域越来越常见的话题。在本系列文章中,我们将深入剖析这一大趋势。我们将深入研究实现先进封装的技术,如高精度倒装芯片、热压接合(TCB)和各种类型的混合接合(HB)。在深度剖析的第一部分中,我们将重点关注该技术的需求以及为何行业正大举向先进封装迈进。
在深度剖析的第二部分,我们分析了各种代工厂、集成器件制造商(IDM)、外包半导体测试与封装(OSAT)以及无晶圆设计公司(如英特尔、台积电、三星、ASE、索尼、美光科技、SK海力士和长江存储科技)的使用情况、设备采购情况以及技术选择差异。在深度剖析的第三部分,我们分析了测试与封装(TCB)市场,包括英特尔的角色、高带宽存储器(HBM)、ASM太平洋、Besi以及Kulicke和Soffa。在第四部分,我们讨论了扇出、有机中介层和硅桥,作为替代昂贵无源中介层的途径。在第五部分,我们将深入探讨混合键合、用途、设计、采用情况以及Besi半导体、ASM太平洋、Kulicke和Soffa、EV集团、Suss Microtec、SET、新川、芝浦、Xperi和应用材料的作用。我们还将深入探讨电气测试和光学检测生态系统。

首先,我们来探讨一下先进封装技术的必要性。摩尔定律的发展速度迅猛。自台积电(TSMC)在32纳米制程节点上出现失误以来,直至目前的5纳米制程节点,台积电的晶体管密度每年增长两倍。尽管如此,实际芯片的密度每三年才增长两倍左右。这种增长速度放缓的部分原因是SRAM缩放、功率传输和热密度等技术的停滞,但这些问题大多与数据的输入和输出有关。

芯片上的数据输入和输出(IO)是计算的生命线。将内存集成到芯片上有助于通过减少通信开销来降低IO需求,但归根结底,这是一种有限的扩展途径。处理器必须与外部世界进行交互以发送和接收数据。摩尔定律使行业每两年将晶体管密度增加大约两倍,但IO数据速率的增长速度仅为每四年两倍。几十年来,晶体管密度与IO数据速率之间的差距已经大大拉开了。共封装光学只是解决这个问题的一种方法,而且它并不是单独存在的。
从根本上说,芯片需要容纳更多的通信点或输入输出(IO)点才能跟上发展步伐。遗憾的是,上一次重大的功能提升是在90年代转向倒装芯片封装。

传统的倒装芯片封装采用的是150微米至200微米的凸点间距。这意味着在芯片的底侧,每个IO单元之间的距离是150至200微米。随着TSMC N7将凸点间距缩小至130微米,以及Intel的10nm技术将凸点间距缩小至100微米,这方面已经取得了一些增量改进。这些进步被称为精细间距倒装芯片。不要低估这些进步,因为它们是更好的处理器的重要推动因素,但2000年的封装技术与2021年的技术基本相同。
2000年的250mm2芯片与2022年的250mm2芯片在晶体管数量、能力以及当然还有成本方面有着惊人的差异。摩尔定律每两年翻一番的说法意味着晶体管数量增加了2000倍以上。显然,现实并不那么乐观,但晶体管的增加仍然大几个数量级。另一方面,封装并没有享受到同样的增长水平。
在台积电的N7节点上,AMD的凸块间距已从约200微米缩小至130微米,而输入输出(IO)仅增加了2.35倍。如前所述,英特尔通过在10纳米工艺上将凸块间距从约200微米缩小至100微米,实现了更大的缩放比例。但这仍仅使其IO增加了4倍。相对于晶体管数量的增加,2.35倍或4倍的增加只是微不足道的误差。

这就引出了焊盘受限设计的概念。当将旧设计转移到新的工艺节点时,设计本身可能会大幅缩小,但IO需求将限制芯片尺寸缩小的程度。由于需要IO,芯片尺寸仍然较大,并留有空余空间。这些情况被称为焊盘受限,而且相当常见。
另外,这不仅与将使用先进封装的前沿技术相关,还与围绕汽车芯片和一般后沿半导体短缺的讨论有关。英特尔的帕特·盖尔辛格认为,这些面临短缺的公司应该转向英特尔的16纳米晶圆厂服务。
今天,我们宣布在英特尔16节点及其他节点上,通过我们在爱尔兰的设施提供欧洲晶圆厂服务,我们相信这有机会帮助加快结束供应短缺,并且我们正在与汽车和其他行业合作,以帮助建立这些能力。但我也想说,有些人可能会争论,嗯,让我们去制造大多数汽车芯片吧,它们都是旧节点。我们不需要一些旧晶圆厂来生产旧节点吗?我们是想投资于过去,还是想投资于未来?
建造一座新工厂需要4到5年时间,并且需要达到可生产的状态。这并非解决当前危机的选择,我们应该投资未来,而不是倒退投资。相反,我们应该将所有设计迁移到新的现代节点上,为未来增加供应和灵活性做好准备。
帕特·盖尔辛格——英特尔首席执行官
英特尔(Intel)的问题在于,当从旧节点转移到相对现代的节点时,这些设计将受到焊盘数量的限制。由于芯片面积因焊盘数量限制而无法很好地扩展,导致每平方毫米的成本更高,因此单位成本经济性在这里并不适用。除了这些成本外,由于必须在新的节点上重新设计旧芯片并执行整个重新认证过程,因此还会产生高额的一次性成本。将旧芯片转移到新节点的解决方案并不可行。

那么,如何增加IO数量呢?
一个途径是寻找制造更大芯片的方法。更大的面积意味着更多的IO空间。虽然这不是最佳路线,但设计者经常会增加芯片上的内存,从而允许在芯片上存储更多的数据。这反过来在一定程度上减少了IO需求。AMD最近的架构就是一个很好的例子,因为他们在CPU和GPU上都有巨大的缓存。
AMD将其标记为Infinity Cache。该解决方案是通过提供大量的片上SRAM池,将处理器中计算相关性最高的数据存储起来,从而减少内存带宽需求。在GPUAMD明确表示,通过增加无限缓存,GDDR大小从384位减少到256位,并将GDDR6总线宽度从384芯片减少到256芯片。苹果公司在这方面也表现得十分积极,在其自主设计的处理器上塞入了大量的缓存。这些设计选择的一个组成部分与功耗有关,但很大一部分也是由于封装限制。

另一种途径是添加各种特定应用的电路来提高芯片效率。我们在异构计算中看到了这一点。回到我们的苹果A15芯片分析,令人惊讶的是,专用于CPU或GPU的面积非常小。这是人们谈论最多的两个方面。苹果公司并没有专注于这些营销方面,而是将大量面积用于其他功能。虽然未被标记,但右下角主要是图像信号处理器。芯片上的这一大块区域用于与拍照和录像相关的计算。还有一个未标记的块与媒体编码和解码相关的计算有关。在SOC的周围,你可以找到这些相当小的均匀矩形,它们是SRAM缓存,将更多数据保存在芯片上,而不必去内存。

这些工作负载无法在传统CPU上运行。人工智能模型正变得越来越大,大到荒谬。Facebook的深度学习推荐系统模型拥有超过12万亿个参数。不断膨胀的模型规模旨在让你在应用上停留更长时间,并点击更多广告。谷歌开发了自己的用于人工智能模型训练和推理的芯片,称为TPU。随着新型处理器VCU的出现,他们扩大了芯片研发的努力,如果专用于同一任务,它能够取代1000万个CPU。
亚马逊拥有定制的网络芯片,该芯片同时运行其管理程序和管理堆栈。他们拥有专门用于人工智能训练、人工智能推理、存储控制和中央处理器的芯片。当你观察Marvell和Broadcom的专用集成电路(ASIC)服务的重点时,形势已变得明朗,硬件设计和架构的分解只会增加。

即便是英特尔这样曾极度自负,认为每项工作负载都应在CPU上运行多年的公司,也认识到异构设计是唯一的出路。该行业不再为每项任务采用通用的CPU硬件,而是针对常见工作负载,专门为其打造硅片。这使得架构师能够从每单位硅片中获得更高的性能。
长话短说,除了CPU之外,专用集成电路的异构集成正占据主导地位。然而,更多的内存和更多的异构计算并不是灵丹妙药。
虽然通过增加内存和异构计算来扩大芯片尺寸对于消除焊盘限制和提高能源效率来说是非常好的,但这些都需要花钱。
很多钱
更多的芯片面积意味着更多的引脚,更多的集成功能,但这也是成本失控的绝佳配方。而芯片尺寸已经达到了极限。例如,看看Nvidia或Intel的数据中心产品线。两者都已经接近“光刻极限”超过5年。即使他们想继续制造更大的芯片,也无法做到了。芯片缩小速度大幅放缓,加剧了这一问题。

因此,缩小速度已经放缓,芯片尺寸无法再大幅增大,且设计受到焊盘限制。这些问题就是全部吗?
不幸的是,答案是否定的。硅单位经济也遇到了障碍。半导体行业及其下游产业一手推动了整个经济的通缩环境,抵消了其他领域的通胀效应。若非如此,自80年代以来,美国和欧洲本应经历无休止的滞胀。然而,这种变革性的通缩力量正遭遇障碍。半导体单位经济并未改善。事实上,为了将晶体管做得更小,情况甚至变得更糟。制造大型芯片不仅成本高昂,而且比上一代芯片的成本更高。

AMD的这张图表描绘了一幅非常可怕的画面。虽然每个节点过渡并不完全相同,但很明显,在7nm和5nm节点上,该行业已经达到了一个拐点。与每产出的平方毫米成本小幅增加不同,成本出现了大幅增加。尽管节点过渡带来的密度提升相似,但由于SRAM缩小的放缓,情况可能更糟,但成本增加并不一致。与每个晶体管成本相关的趋势逆转令整个行业震惊。这一逆转具有巨大影响,甚至导致一些无知的银行家以此为由,将台积电的估值下调。

摩根士丹利认为,由于摩尔定律的放缓,晶体管成本缩放已经停止,台积电的定价压力将会减少。摩根士丹利通过包含一张可笑的图表来证明这一点,该图表显示5nm晶体管的成本低于7nm。这与行业专家的观点形成鲜明对比。随着FinFET节点的引入,每个晶体管的成本停滞不前,7nm完全停滞不前,而5nm的成本比以往任何时候都要高。我们的读者可以计算一下,N7晶圆约为9,500美元,N5晶圆约为16,000美元。苹果的晶片尺寸几乎没有下降,但他们还是支付了费用。
因此,尽管每个晶体管的成本仍在上升,但计算需求却比以往任何时候都增长得更快。我们转向异构架构来应对,但现在硅设计过程变得更加困难。该行业必须依赖多个拥有不同知识产权(IP)的团队按时交付,并将它们整合在一起。新思科技(Synopsys)和Cadence等电子设计自动化(EDA)供应商在协助方面做得非常出色,但这还不够。对于那些没有超过1000万件用例的公司来说,一个开放的生态系统是必不可少的,在这个生态系统中,人们可以购买特定应用的IP或硅片,并将其集成到他们的硬件设计中。即使对于那些公司,小芯片式的系统架构也是解决方案。

AMD罗马/米兰
随着我们继续缩小尺寸,预期产量会缓慢下降。这是一个合乎逻辑的结论,因为每个连续的节点都会增加约35%的工艺步骤。当前沿工艺的测量步骤达到数千时,错误开始迅速累积。工业企业喜欢谈论“六西格玛”,但对于半导体制造来说,这还不够。让我们假设一个有2000个工艺步骤的过程,每个步骤的缺陷率为每平方厘米6西格玛。那么D0(每平方厘米缺陷率的行业术语)最终将是0.678。晶片越大,出现缺陷的可能性就越大。
如果这个假设的过程是制造英特尔(Intel)的高端服务器CPU——Ice Lake,那么每个晶圆将产出4个良品芯片和76个次品芯片。现在考虑一下,这个分析是在平方厘米(cm2)的层面上进行的,而在前沿工艺节点上,每平方厘米有数十亿个晶体管。半导体行业远胜于六西格玛(six sigma)。
除了在皮米级别上达到完美,还有什么解决方案吗?
小芯片!将大芯片拆分成许多小芯片
AMD是这一趋势中最典型的例子,但这一趋势在整个行业中普遍存在。AMD可以设计3款芯片,即1款CPU核心小芯片和2款IO芯片。这3款设计占据了市场的很大份额。与此同时,英特尔设计了2款Alder Lake台式机芯片和3款Ice Lake服务器芯片,以服务于相同的潜在市场。因此,AMD能够节省设计成本,制造出比英特尔拥有更多核心的CPU,并在产量上节省资金。
为了证明产量论点,请参见下表。AMD将CPU内核分布在8个CPU内核芯片上。如果良率为100%,那么英特尔制造CPU内核的成本将低于AMD。但实际情况是,由于更大的芯片存在更多缺陷,英特尔必须为每个CPU内核花费更多成本。下表存在一些明显的警告,其中最大的警告是假设不良芯片的收获率为0,且英特尔和台积电具有相同的D0。这两个假设都不成立,此假设仅用于演示目的。

小芯片很棒,但孤立来看它并不是解决方案。我们仍然会遇到许多同样的问题。每个晶体管的成本仍在上升,设计成本飙升,由于需要更多输入输出(IO)与其他芯片接口,小芯片受到焊盘限制。由于输入输出(IO)限制,芯片的某些部分无法拆分,因此芯片尺寸仍在增加。
解决方案是什么?
先进封装
在此,我们想指出,一些工具供应商将所有倒装芯片封装都称为“高级封装”。但SemiAnalysis及业内大多数下游人士并不这么认为。因此,我们将稍作类比,将所有凸点尺寸小于100微米的封装称为“先进封装”。

最常见的一类先进封装被称为扇出。有些人认为它甚至不是先进的封装,但这些人完全错了。以苹果为例,他们会要求台积电将应用处理器晶片与密度更高的凸点封装在一起,这些凸点在90微米到60微米的级别上,封装在重构或载体晶圆/面板上。与传统倒装芯片封装相比,这大约是8倍的凸点密度。
这种重构或载体晶片/面板随后进一步扩展了IO,因此得名扇出。扇出封装随后被连接到主板上。硅晶片的设计可以较少地担心焊盘限制,因为扇出上的焊盘更小。这种封装还可以在其上封装DRAM内存、NAND存储和PMIC。集成扇出不仅对密度有好处,而且它们还可以将大量的芯片间IO保留在封装上。否则,这些IO将不得不通过主板以更大的IO间距尺寸进行接口。
集成扇出技术正日益普及于高性能应用,而不仅仅是移动设备。增长最快的用例出现在网络领域,该领域的设计在过去十多年里一直受到封装尺寸的限制。AMD将在其服务器CPU和GPU中大举采用扇出技术。特斯拉Dojo 1是集成扇出封装的另一个备受瞩目的例子,但采用的是晶圆级封装。SemiAnalysis在特斯拉宣布之前就透露了特斯拉将使用这种封装类型。

在先进的封装技术中,有2.5D和3D封装。2.5D涉及将硅片封装在其他硅片之上,但下面的硅片晶片专门用于布线,且没有有源晶体管。这通常在55微米到50微米的间距下完成,因此凸点密度大约高出16倍。最常见和最高使用量的用例是Nvidia数据中心GPU与TSMC CoWoS(晶片上芯片在基板上)。TSMC将在仅具有互连和微凸点的晶片上封装有源芯片。然后使用传统方法将这堆芯片封装到基板上。
其他例子基本上包括所有配备HBM的处理器。HBM的创立初衷是作为一种阶跃函数,将内存带宽提升至传统DRAM形式之上。它通过使用更宽的内存总线来实现这一目标。这些宽总线带来了与IO计数相关的问题,但HBM从一开始就被设计为在同一封装内共存。这解决了IO问题,同时也实现了更紧密的集成。
2.5D的更多例子包括基于Intel EMIB的产品、Xilinx FPGA、AMD最新的数据中心GPU以及Amazon Graviton 3。

Nvidia A100
3D封装技术正在将一个有源晶片封装在另一个有源晶片的顶部。最初,英特尔的逻辑硅芯片采用55微米间距,但批量使用案例将采用36微米及更低的间距。台积电和AMD将采用17微米间距的3D堆叠V-cache。这项技术从凸块转向了硅通孔(TSVs),并且它有更大的扩展空间。
其他应用,如索尼制造的CMOS图像传感器,其像素间距已达6.3微米。为了便于比较,36微米像素间距的凸块密度要高出31倍,17微米像素间距的铜制硅通孔(TSV)的输入输出(IO)密度要高出138倍,而索尼的6.3微米像素间距的CMOS图像传感器与标准倒装芯片相比,其IO密度要高出567倍。

索尼2017年IEDM CMOS图像传感器TSV(硅通孔)
这只是对主要封装类型的基本解释,但我们将在本系列中更深入地探讨不同类型的封装。各公司对未来封装类型、工具以及工具供应商的选择都做出了不少不同的押注。设备和知识产权方面的情况比人们乍一看时想象的要有趣得多,但在我们深入探讨之前,需要先解释一些基本知识。
面对即将到来的创新浪潮,我们有许多可投资的想法和视角。摩尔定律的放缓正在推动根本性的变革。我们正处于由先进封装技术推动的半导体设计复兴之中。