AI/ML在设计和测试中的作用不断扩大

袁遗说科技 2024-08-10 17:24:44

本文由半导体产业纵横(ID:ICVIEWS)编译自semiengineering

AI 和 ML在哪里最有效,它将如何影响从设计到测试的时间依旧模糊。

人工智能和机器学习在测试中的作用日益增强,节省了大量时间和金钱,超出了最初的预期。但它并不是在所有情况下都有效,有时甚至会破坏经过充分测试的流程,投资回报率也值得怀疑。

人工智能的一大吸引力在于它能够对大型数据集进行分析,而这些数据集通常受到人类能力的限制。在关键的设计到测试领域,人工智能可以解决诸如设计设置、模拟和 ATE 测试程序之间的工具不兼容等问题,这些问题通常会减慢调试和开发工作。设计到测试中最耗时和最昂贵的一些方面源于工具之间的不兼容性。

Teradyne 首席软件工程师 Richard Fanning 表示:“在设备启动和调试期间,复杂的软件/硬件交互可能会暴露出多个团队或利益相关者对领域知识的需求,他们可能不熟悉彼此的工具。在这些设置中进行转换,或调试差异所花费的任何时间都是在消耗精力。我们的工具集针对这一问题,允许所有设置使用同一套源文件,这样每个人都可以确保他们运行的是同一个东西。”

机器学习和人工智能分析也可以减轻工程中一些单调乏味的工作。人们常常担心人工智能将取代工人,这种担忧被夸大了。大多数工人只是转向更高级别的职责,将人工智能作为他们武器库中的新工具。但这种工具会在它能产生最大影响的地方使用,这可能包括从设计到制造流程的多个环节。然而,流程中某一部分的数据如何以及在何处与流程中其他部分的数据进行交互可能会有很大差异,这就是该行业谨慎行事的原因。

Synopsys EDA 集团总经理 Shankar Krishnamoorthy 表示:“生成式 AI 开辟了许多新机遇。但你需要明确自己想要做什么。除非你能用正确的提示指示 LLM,否则你得到的只是胡言乱语。除非你是一名优秀的工程师,知道如何看待 LLM 的输出,否则你很容易接受有缺陷的东西,或者性能不佳的东西,然后你交付的芯片就很差。因此,AI 不会成为每个工程师的超级助手,帮助他们完成几年前三到五倍的工作。但这项技术正在迅速发展。”

这绝不会削弱工程团队的作用,工程团队对于加速从设计到测试的过程、指导和验证 ML 模型以及验证系统是否按预期运行仍至关重要。西门子数字工业软件技术支持高级总监 Ron Press 在最近的 MEPTEC 活动演讲中表示:“人工智能有一些很棒的功能,但它实际上只是一种工具。我们仍然需要工程创新。有时人们会写关于人工智能将如何夺走所有人的工作,我完全不这么认为。我们的设计更复杂,设计规模也更大。我们需要利用人工智能作为一种工具,以更快的速度完成同样的工作。”

尽管如此,它确实为工程师提供了一种可能强大的新工具,用于识别潜在问题和管理失控的复杂性。

Advantest ACS 数据分析平台组业务开发高级总监 Ken Butler 表示:“随着我们不断推进这一技术曲线,我们必须采用的分析和计算基础设施变得越来越复杂,你希望能够以最少的过度投入做出正确的决策。在某些情况下,我们会根据芯片类型定制测试解决方案。”

加速设计到特性分析再到第一块硅片的速度

面对不断缩小的工艺窗口和最低的允许缺陷率,芯片制造商不断改进从设计到测试的流程,以确保在设备启动和大批量生产期间实现最高效率。Advantest 的 Butler 表示:“测试操作中的分析并不是什么新鲜事。这个行业分析测试数据和做出产品决策的历史已经超过 30 年。现在的不同之处在于,我们正在转向越来越小的几何形状、先进的封装技术和基于芯片的设计。这促使我们改变我们所做的分析类型的性质,包括软件和硬件基础设施方面。但从生产测试的角度来看,我们在 AI 和测试方面的旅程还处于早期阶段。”

尽管如此,早期采用者正在构建在线计算和 AI/ML 建模所需的基础设施,以支持测试单元中的实时推理。而且由于没有一家公司拥有所需的所有专业知识,因此在开发合作伙伴关系和应用程序库时,会考虑到工具之间的兼容性。

Teradyne 公司的 Fanning 表示:“协议库提供了用于通信通用协议的现成解决方案。这减少了设备通信的开发和调试工作量。我们曾见过测试工程师负责与新协议接口对话的情况,使用此功能可以节省大量时间。”

事实上,数据兼容性是一个始终不变的主题,从设计一直到 ATE 硬件和软件的最新发展。“随着设备复杂性呈指数级增长,在特性分析和生产之间使用相同的测试序列已成为关键,”Teradyne 的 Fanning 解释道。“与 EDA 工具和 IP 供应商的合作也是关键。我们与行业领导者进行了广泛的合作,以确保他们输出的库和测试文件是我们的系统可以直接使用的格式。这些工具还具有我们的工具集所没有的设备知识。这就是远程连接功能如此重要的原因,因为我们的合作伙伴可以提供在生产调试期间功能强大的上下文特定工具。能够实时使用这些工具而无需在不同环境中重现设置或用例,这改变了游戏规则。”

串行扫描测试

但是,如果所有配置更改看起来都发生在测试端,那么就需要评估多核设计测试方法中的重大变化。

对于多核产品而言,测试设计(DFT)迭代过程中的权衡变得十分重要,因此有必要采用一种新方法。

“如果我们看看当今设计的典型组合方式,就会发现有多个内核将在不同时间生产,”西门子的 Press 说道。“您需要知道要用多少个 I/O 引脚来获取扫描通道,测试仪的深度串行存储器将通过 I/O 引脚将数据传送到内核。因此,我需要权衡许多变量。我有通向内核的引脚数、模式大小和内核的复杂性。然后,我将尝试找出在所谓的分层 DFT 中一起测试的最佳内核组合。但随着这些设计变得越来越复杂,内核数量将超过 2,500 个,需要权衡很多因素。”

Press 指出,应用相同架构的 AI 可以提供 20% 到 30% 的更高效率,但基于分组扫描测试的改进方法(见图 1)实际上更有意义。

图1:串行扫描网络(SSN)方法的优势。来源:西门子EDA

“测试通道不再将数据馈送到每个核心的扫描通道,而是通过分组总线和数据包馈送到所有核心。然后,您可以指示核心何时可以使用其数据包信息。通过这样做,您无需权衡那么多变量,”他说。在核心级别,每个核心都可以针对任意数量的扫描通道和模式进行优化,并且 I/O 引脚数不再是计算中的变量。“然后,当您将其放入最终芯片时,它会从数据包中提供该核心所需的数据量,这些数据可以与任何大小的串行总线配合使用,这就是所谓的串行扫描网络 (SSN)。”

西门子 EDA 客户报告的一些结果(见图 2)强调了监督和无监督机器学习的实施,以提高诊断分辨率和故障分析。使用串行扫描网络方法,DFT 生产力提高了 5 到 10 倍。

图2:使用机器学习和串行扫描网络方法实现的效益。来源:西门子EDA

是什么减慢了 HVM 中 AI 的实施速度?

在从设备设计到测试的过渡过程中,机器学习算法的应用可以带来许多好处,从更好地匹配芯片性能以用于高级封装,到缩短测试时间。例如,可能只有一小部分高性能设备需要进行老化测试。

NI/Emerson 测试与测量研究员 Michael Schuldenfrei 表示:“您可以识别晶圆上的划痕,然后在晶圆分类过程中自动筛选出划痕周围的芯片。因此,AI 和 ML 听起来都是非常棒的想法,而且在很多应用中使用 AI 都是有意义的。最大的问题是,为什么它没有真正频繁和大规模地发生?答案在于构建和部署这些解决方案的复杂性。”

Schuldenfrei 总结了机器学习生命周期中的四个关键步骤,每个步骤都有各自的挑战。在第一阶段,即培训阶段,工程团队使用数据来了解特定问题,然后构建一个模型,该模型可用于预测与该问题相关的结果。一旦模型得到验证并且团队想要将其部署到生产环境中,就需要将其与现有设备(如测试仪或制造执行系统(MES))集成。模型也会随着时间的推移而成熟和发展,需要频繁验证输入模型的数据并检查模型是否按预期运行。模型还必须适应,需要重新部署、学习、行动、验证和适应,形成一个连续的循环。

“这消耗了数据科学家的大量时间,他们负责在其组织中部署所有这些基于AI的新解决方案。在他们试图访问正确的数据、组织数据、将所有数据连接在一起、理解数据,并从中提取有意义的特征时,也浪费了时间,”Schuldenfrei 说道。

在分布式半导体制造环境中,全球各地分布着许多不同的测试机构,这带来了更多困难。“当你完成 ML 解决方案的实施时,你的模型已经过时了,你的产品可能不再是前沿技术,因此当模型需要做出决定时,它已经失去了可操作性,而这个决定实际上会影响特定设备的装箱或处理,”Schuldenfrei 说。“因此,在具有大量半导体测试的生产环境中部署基于 ML 的解决方案绝非易事。”

他引用了 2014 年谷歌的一篇文章,该文章指出,机器学习代码开发部分是整个过程中最小也是最简单的部分,而构建基础设施、数据收集、特征提取、数据验证和管理模型部署的各个方面则是最具挑战性的部分。

从设计到测试的变化会波及整个生态系统。西门子表示:“从事 EDA 的人员在设计规则检查 (DRC) 方面投入了大量精力,这意味着我们正在检查我们所做的工作和设计结构是否可以安全地继续进行。这对于人工智能来说非常重要——我们称之为可验证性。如果我们运行某种类型的人工智能并给我们一个结果,我们必须确保这个结果是安全的。这确实会影响到从事设计的人员、DFT 组和测试工程人员,他们必须采用这些模式并应用它们。”

有许多基于 ML 的应用程序可用于改进测试操作。Advantest 的 Butler 重点介绍了客户最常追求的一些应用程序,包括缩短搜索时间、shift left测试、缩短测试时间和芯片配对(见图 3)。

“对于最小电压、最大频率或微调测试,您倾向于为搜索设置下限和上限,然后您将在那里进行搜索,以便能够找到此特定设备的最低电压,”他说。“这些限制是根据流程划分设置的,它们可能相当宽泛。但是,如果您拥有可以运用的分析技术,那么 AI 或 ML 类型的技术基本上可以告诉您该芯片在流程频谱中的位置。也许它是从较早的插入中前馈的,也许您可以将它与当前插入时的操作相结合。这种推断可以帮助您缩小搜索范围并加快测试速度。很多人对这个应用非常感兴趣,有些人正在生产中使用它,以减少测试时间密集型测试的搜索时间。”

图3:使用ACS平台对设备进行配对或分类,以提高产量、吞吐量、可靠性或降低成本的实时和/或测试后改进机会。来源:Advantest

“shift left(左移)背后的想法可能是,我的下游测试插入成本非常高,或者封装成本很高,”Butler 说。“如果我的良率达不到我想要的水平,那么我可以在早期插入时使用分析,通过在早期插入时进行分析,尝试预测哪些设备在后期插入时可能会出现故障,然后降级或报废这些芯片,以优化下游测试插入,提高良率并降低总成本。测试时间的减少非常简单,就是增加或删除测试内容,跳过测试以降低成本。或者你可能想增加测试内容来提高良率,”Butler 说。

“如果我有一个多层设备,它不会通过 bin 1 标准——但如果我添加一些额外的内容,它可能会通过 bin 2——那么人们可能会查看分析来尝试做出这些决定。最后,在我看来,有两件事是结合在一起的,即芯片设计和智能配对的想法。所以经典的例子是处理器芯片上堆叠了高带宽内存。也许我对某些应用的高性能和低功耗感兴趣,我希望能够匹配内容并在芯片通过测试操作时对其进行分类,然后在下游进行拾取和放置,并将它们放在一起,以便最大限度地提高多个数据流的产量。例如,低功耗足迹和碳足迹也有类似的事情。”

生成式人工智能

在讨论人工智能在半导体领域的作用时,不可避免地会出现一个问题,那就是像 ChatGPT 这样的大型语言模型是否能对在晶圆厂工作的工程师有用。早期的研究显示出了一些希望。

“例如,您可以要求系统为您构建一个异常值检测模型,该模型会查找距离中心线 5 个西格玛的部件,并说‘请为我创建脚本’,系统就会创建脚本。这些是我们已经在尝试的基于自动化、生成式 AI 的解决方案,”Schuldenfrei 说。“但从我目前看到的一切来看,要让这些系统提供足够高质量的输出,还有相当多的工作要做。目前,事后修复生成式 AI 产生的算法或模型的问题所需的人机交互量仍然相当大。”

一个挥之不去的问题是,当每个人都保护重要的测试 IP 时,如何访问训练新测试程序所需的测试程序?“大多数人重视他们的测试 IP,不一定想在训练和使用过程中设置护栏,”Butler 说。“因此,找到一种在保护 IP 的同时加速开发测试程序的总体过程的方法是一个挑战。很明显,这种技术将得到应用,就像我们在软件开发过程中已经看到的那样。”

故障分析

故障分析对于晶圆厂来说通常是一项成本高昂且耗时的工作,因为它需要追溯过去,收集特定故障设备的晶圆加工、组装和封装数据,即所谓的退回材料授权 (RMA)。物理故障分析在 FA 实验室中进行,使用各种工具来追踪故障的根本原因。

虽然扫描诊断数据已经使用了几十年,但一种较新的方法是将数字孪生与扫描诊断数据配对,以找出故障的根本原因。

“在测试中,我们有一个数字孪生,它可以根据扫描故障诊断进行根本原因反卷积。因此,我们不必查看物理设备并花时间试图找出根本原因,因为我们有扫描,我们有数百万个虚拟采样点,”西门子出版社表示。“我们可以对创建模式所做的工作进行逆向工程,并找出设计深处扫描单元中发生错误比较的位置。使用 YieldInsight 和无监督机器学习以及对大量数据进行训练,我们可以非常快速地查明故障位置。这使我们能够在短时间内运行数千或数万次故障诊断,让我们有机会识别系统性良率限制因素。”

另一种越来越流行的方法是使用片上监视器来访问特定的性能信息,而不是物理故障分析。proteanTecs 测试和分析副总裁 Alex Burlak 表示:“我们需要的是来自封装内部的深度数据,以持续监控性能和可靠性,而这正是我们提供的服务。例如,如果怀疑故障来自芯片互连,我们可以使用来自片上代理的深度数据来帮助分析,而不是将设备脱离环境并带入实验室(在那里您可能无法重现问题)。更重要的是,在许多情况下,发回数据而不是设备的能力可以查明问题,从而节省昂贵的 RMA 和故障分析程序。”

结论

ATE 社区对 AI 和机器学习的热情得到了强有力的基础设施变革的满足,以满足对测试数据实时推断的需求,以及对多芯片封装的更高产量、更高吞吐量和芯片分类进行优化的需求。对于多核设计,商业化为串行扫描网络 SSN 方法的分组测试提供了一种更灵活的方法来优化每个内核,以满足设备中每个内核的扫描链数量、模式和总线宽度需求。

能够从 AI 中获益的测试应用数量不断增加,包括缩短测试时间、减少 Vmin/Fmax 搜索、shift left、智能配对芯片以及降低整体功耗。设计、特性和测试中所有设置均使用相同的源文件等新进展有助于加快新产品的关键调试和开发阶段。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

0 阅读:2

袁遗说科技

简介:感谢大家的关注