芯片首次流片成功率“跳崖式”下降！

由于芯片制造复杂度不断增加、芯片制造商从单片芯片转向多芯片组件后需要更多的迭代次数，以及越来越多的定制化需求使得设计和验证工作耗时更长，首次流片成功的比例正在急剧下降。

一项新的功能验证调查中的细节凸显出，开发既具备功能性又可靠的先进芯片难度日益增大。在很多情况下，这些器件比光罩尺寸的片上系统（SoC）更大，而且它们包含各种组件和布线方案，这可能会降低其稳定性。因此，它们需要更多的优化和更多的迭代次数。

这些器件集成了更多的逻辑电路，其中一些是在不同的工艺节点上开发的。它们拥有更多的静态随机存取存储器（SRAM）和更多的互连结构，而这两者的发展速度都与逻辑电路的发展速度不同步。此外，它们需要更多的软件，就大语言模型（LLM）和其他人工智能算法而言，软件的发展速度比硬件快得多。它们还需要复杂的散热技术、新材料、经过精心设计和定制的封装，以及更精确的基于工作负载的模型。更糟糕的是，它们所需的验证时间比预定的时间安排要多。

所有这些因素的综合影响在最新数据中得到了体现。西门子电子设计自动化（EDA）公司的首席验证科学家哈里・福斯特（Harry Foster）表示：“该行业在实现首次流片成功方面已处于历史最低点。从历史数据来看，这一比例通常在 30% 左右。两年前，从 2023 年到 2024 年，这一比例从 30% 降至 24%。而这次下降到了 14%。这是一个数据点。另一个数据点是，从历史上看，大约三分之二的项目会延期。现在这一比例上升到了 75%。”

图 1：功能正确且可制造的设计数量正在下降。

在日益复杂和多层级的流程的每一个环节，都需要提高生产效率。通常情况下，这意味着要雇佣更多的工程师。但由于人才持续短缺，而且所需的广泛培训远远超出了工程师过去所需掌握的知识范畴，因此这是不可能实现的。这就是为什么 EDA 供应商如此专注于将人工智能融入他们的工具中，基本上是通过强化学习将这些知识编码。但这种转变仍需要时间。

福斯特说：“我们目前所做的并不奏效。我们需要大幅提高生产效率，而这并不是一个很多人喜欢谈论的指标，因为它很难衡量。相对容易说的是，‘这个比那个快 10%’。此外，很多公司缺乏设计非常复杂芯片的技能，或者这对他们来说是新事物。在 20 世纪 90 年代末，每个人都在谈论生产效率差距。现在的问题与 20 年前不同，但也有一些共同的主题。我们需要从孤立的工具集转向更加互联和集成的工具。”

图 2：复杂度不断增加，再加上生产效率差距，正在延长芯片制造的时间。

来源：西门子 EDA / 威尔逊研究 / 设计验证大会（DVCon）

然而，生产效率问题不能完全归咎于复杂度。即使是主流的芯片制造商，现在生产芯片的速度也比过去更快。

楷登电子（Cadence）公司验证软件高级总监马特・格雷厄姆（Matt Graham）表示：“我最初是做验证工作的，我们似乎都对首次流片成功有着某种程度的担忧。很长一段时间以来，我们似乎都处于那种状态。但在过去的一年到 18 个月里，突然之间每个人都在生产更多的芯片。即使是那些不专注于消费市场的公司，比如为测试设备制造芯片的公司，现在对芯片的需求量也达到了原来的四倍。他们从每 18 个月生产一款芯片，变成了每年生产4到5款芯片。这是因为突然之间所有东西都变得更加专业化了。”

在重大技术变革中，这种情况经常发生，此时工艺、工具和标准都需要迎头赶上。格雷厄姆说：“我们常常会从更专业化走向更通用化，然后再回到专业化，而我们似乎正处于其中一个特定应用的循环中。这使得每个人生产的芯片数量增加了四五倍，但却没有人增加人员配置来完成四倍数量的芯片流片工作。而且如果你处于技术前沿，采用 3D 集成电路（3D-IC）或基于小芯片（chiplet）的设计，其中一片晶圆可能需要稍作调整。”

在技术前沿领域，变化既深刻又繁多，有时还因设计而异，这使得很难确定问题所在。许多这样的设计都是为大型系统供应商内部使用而专门定制的，这些供应商希望为特定应用或数据类型突破性能极限。在这些情况下，重新流片的成本是预算过程的一部分，这也给数据带来了一些不确定性。

新思科技（Synopsys）系统设计集团战略项目和系统解决方案执行董事弗兰克・希尔迈斯特（Frank Schirrmeister）表示：“对于重新流片的情况，逻辑功能仍然是最突出的问题。[西门子 EDA / 威尔逊研究集团] 的调查显示，70% 的重新流片是由于规格变更导致的设计错误。这意味着有人误解了规格要求并敲响了警钟，所以 50% 的项目会进行第二轮流片。一些大型芯片制造商实际上预计会进行多达四次重新流片。所以归根结底，这还是复杂度的问题。”

这也为 EDA 公司创造了一个潜在的巨大机遇，特别是那些将某种人工智能融入其工具和流程中的公司。

新思科技首席执行官萨辛・加齐（Sassine Ghazi）在新思科技用户大会（Synopsys User Group）的主题演讲中表示：“在生成式人工智能中，你有一个‘副驾驶’来协助和创造。通过我们与微软合作开发的‘副驾驶’技术，你拥有了一个工作流程助手、知识助手和调试助手。你可以以更快的速度培养初级工程师，对于资深工程师也是如此。他们可以以更现代化、更有效、更高效的方式与我们的产品进行交互。然后还有创造性的元素。我们在早期就与客户合作，从寄存器传输级（RTL）生成、测试平台生成到测试断言，在这些过程中你都可以有一个‘副驾驶’来帮助你创建部分 RTL、测试平台文档和测试断言。”

在某些情况下，生产效率已经从过去的几天提高到了现在的几分钟。但随着智能体人工智能（agentic AI）的推出，最大的好处还在后头，它从根本上提高了整个设计和验证流程的抽象层次。

加齐说：“随着人工智能的不断发展，工作流程也会随之改变。我们的利益相关者经常问我，什么时候我们能看到通过利用人工智能使 EDA 市场发生变化。我认为，除非工作流程发生改变，即你可以以截然不同的方式做某些事情，从而更快、更有效、更高效地交付产品，否则不会出现这种情况。现在，在智能体人工智能时代，智能体工程师将与人类工程师合作，以应对复杂度并改变工作流程。”

图 3：从生成式人工智能到智能体人工智能的演变。来源：新思科技

对问题进行抽象处理

工程师在进行先进设计时面临的一些最大挑战是理解设计中数百甚至数千个不同元素之间的依赖关系。过去，一个重要的解决办法是更紧密地集成硬件和软件。如今的协同设计可能包括数十个甚至数百个小芯片，这些小芯片需要独立工作，有时还需要协同工作。为了理解所有可能的相互作用，需要进行多物理场仿真，而且现在的协同设计不再仅仅是硬件 - 软件协同设计，它还包括各种类型的互连结构、封装，可能还有光子学，在某些情况下甚至包括更大的系统级系统。

此外，所有设计都需要具备可测试性（可测性设计，DFT）、可制造性（可制造性设计，DFM），并具有足够的良率（良率设计，DFY），而且还需要有足够的内部控制措施，以防止过热。如果确实出现过热且老化速度比预期快的情况，就需要有重新路由信号的机制，而这主要是由软件驱动的。

楷登电子的格雷厄姆说：“在验证领域，我们看到软件正越来越成为完整解决方案的一部分。这不再仅仅是‘我们要制造一个芯片’。而是特定的芯片。芯片的终端市场和最终应用场景是明确的。运行在芯片上的软件栈是已知的，而且要嵌入芯片的机器人、汽车或其他设备也是明确的。并且需要从各个方面考虑这些因素，我们需要考虑软件验证、流片前的验证，甚至可能在将其放入仿真器或原型平台之前，就需要对软件进行完善。”

在一开始，软件和硬件分别应具备多少功能并不总是很明确。在复杂的设计中，微调这种平衡是一个耗时的过程，这很容易导致多次重新流片。

Axiomise 公司首席执行官阿希什・达尔巴里（Ashish Darbari）表示：“软件引入了大量的功能和特性。如果硬件团队，尤其是验证团队，没有完全意识到这些，那么在正在测试的内容与已定义和确定范围的内容之间就会存在很大的差距。这正是很多漏洞被遗漏的原因。我们进行所有这些虚拟原型设计，并尽早启动软件，以获得 1 万或 10 万个仿真向量。但有谁会去关注边界条件呢？一个项目接着一个项目，我们在最初的两三个星期内就发现了所有这些错误情况问题，因为设计师们已经没有时间了。”

新市场，不同的关注点

这些问题远远超出了功能验证和调试的范畴，而在芯片制造之前，功能验证和调试一直占据着芯片开发时间和资源的绝大部分。在汽车和军事 / 航空等安全关键型应用中采用更复杂的芯片，为设计增加了全新的要求。过去，这些市场都不允许使用先进节点的芯片，因为它们被认为不够可靠。但随着中国比亚迪（BYD）和蔚来（NIO）等，以及美国 Rivian 和 Lucid 等电动汽车初创企业的竞争日益激烈，老牌汽车制造商正争相将更多功能转移到软件上。而这只有通过使用更先进的芯片和高度定制化的封装才能实现，随着汽车制造商朝着更高水平的自动驾驶迈进，这种需求将变得越来越必要。

在这些系统中，安全性是一项基本要求，但任何系统出现故障也可能会带来安全漏洞。因此，芯片的设计需要考虑更多的极端情况，从炎热气候下环境热量导致的加速老化，到现实世界中的道路状况。虽然其中很多情况可以通过仿真来模拟，但芯片也需要进行道路测试。如果任何问题无法通过软件得到充分解决，芯片就需要重新流片。

Axiomise 公司的达尔巴里说：“功能验证会耗费你大部分时间。但是，简单的功耗优化，比如在设计中引入不确定值（X），很容易使一个模块容易受到特洛伊木马攻击，因为这些不确定值现在在执行框架中提供了多种选择。所以在芯片中，不确定值（X）要么是 0，要么是 1。实际上你不会看到不确定值（X），但从仿真和行为的角度来看，这些不确定值现在为最终用户增加了综合选择，使他们能够操作设计中本不应访问的区域。所以一方面，你有功能验证。另一方面，从功耗角度引入了这些不确定值问题，然后还有冗余区域。在安全性方面，芯片中的区域越大，暴露的风险就越大。”

整合各个部分

芯片中需要额外的硅片面积来容纳更多的处理元件和更多的功能，或者在某种先进封装中容纳多个小芯片。但这也使得首次流片成功变得更加困难。

西门子的福斯特说：“你正在处理的加速器具有非常复杂的工作负载。这给设计带来了很多我们甚至不知道如何从语义上描述的不确定性，因此很难进行验证。其中一个挑战是，我们建立了很多以工具为中心的流程，却没有考虑到优化所有这些所需的反馈循环。未来我们需要更互联的流程。然后我们才能利用人工智能。一个明显的例子是，当我进行可测性设计（DFT）时，‘哎呀，我无法达到故障覆盖率要求’。所以现在我需要手动回到工具流程的早期阶段。所有这些循环都需要闭合。但到哪里去找人来做这些工作呢？”

根据 EDA 公司以及一些领先的晶圆代工厂和外包半导体组装与测试（OSAT）企业的说法，答案在于新的工具、方法，可能还包括更严格的设计规则和更有限的封装选项。但现在要判断这一切最终会如何发展还为时过早。变化的速度比几年前任何人预测的都要快得多，而数据就是证明。

原文：

https://semiengineering.com/first-time-silicon-success-plummets/