提高系统可靠性的途径有两个:错误避免和容错设计。
错误避免即通过使用更高质量、更高可靠性的元器件、部件来提高系统的可靠性,其实现成本比容错设计低。
容错设计主要是通过部件的冗余来实现,即通过增加设计的复杂性,增加冗余单元,同时也增加成本而达到提高系统的可靠性。
从层次上,我们从系统级、电路板级、器件级三个层次进行归总:
系统的可靠性是由多种因素决定的,影响系统可靠、安全运行的主要因素来自于系统内部和外部的各种电气干扰,以及系统结构设计、元器件选择、安装、制造工艺和外部环境条件等。可靠性的高低涉及产品活动的方方面面,包括元器件采购、检验、设备设计、生产、工程安装、维护等各个环节。
在电子产品中,影响产品可靠性的一个很重要的因素是干扰问题,所以提高系统的抗干扰能力是产品设计过程中重要目标,是贯穿整个硬件设计流程的重要活动。
系统级
一、用理论的方法对系统可靠性进行预计,并且找到薄弱点。
这个是很多可靠性公司或者咨询公司入手介绍可靠性的方法。但是很多硬件工程师会觉得,这个方法不够落地,整了很多数据,实际没有什么作用。
正是因为工作量大,与实操可靠性提升缺乏线性指导关系,导致大家觉得没用。但是我们真正要做好可靠性还是需要从这个维度入手。我们从理论分析时,需要做如下工作。
Ø 建立可靠性模型
串联模型:组成产品的所有单元中任一单元发生故障都会导致整个产品故障
并联模型:组成产品所有单元同时工作时,只要有一个单元不发生故障,产 品就不会故障,亦称贮备模型
表决模型:组成系统的n个单元中,正常的单元数不小于r(1≤r≤n)系统就不会故障,这样的系统称为r/n(G)表决模型。
Ø 可靠性分配
在产品设计阶段,将产品的可靠性定量要求按规定的准则分配到规定的产品层次的过程。
可靠性分配的目的:
将整机可靠性要求分配到各组成单元
明确设计时对各组成单元控制的重点
Ø 可靠性预计
通过将整个硬件系统进行拆分,从每个可以提供失效率的单元,按照模型进行计算,得到整体的失效率。
所以我们需要经历:建立模型→分解部件→预计可靠性是否满足需求→找到可靠性的短板→优化(模型优化,系统级优化,模块级优化,器件级优化)。
在实操过程中,大家担心的是:
1、很多器件的失效率无法获得。缺少一个数据可能导致结果不准确。
2、很多数据并不准确。
3、计算量巨大,但是与实际数据相差甚远。
但是,我们通过计算,可以找到短板,同时可以从理论评估是否满足其失效率的需求。需要我们企业累积投入,形成数据积累和工具积累,在每个项目的时候的重复劳动避免,则大大提供效率和准确度。
二、评估设备的组件会怎么失效,失效之后会有什么后果。
这个方法其实就是FMEA
•FMEA:Failure Modes and Effects Analysis,失效模式与影响分析。讲白点,就是通过“想”和穷举法,一一考虑各个器件(组件)可能会怎么坏掉?坏掉之后有什么影响,分析分析,看看软件、硬件层面,有没有什么手段和措施能够检测、解决、隔离、恢复 这个问题。
指在产品的设计过程中,通过对系统各组成单元潜在故障模式对产品功能的影响分析,或对系统功能流程各个步骤,数据流和存储各环节失效后对产品影响分析,把每个潜在故障模式按影响严酷程度分类,提出预防改进措施,如故障检测、故障隔离、故障恢复等软硬件故障管理需求及测试验证需求,以提高系统的可靠性可维护性的分析方法。
FMEA 是一种自下而上的方法,用于分析一个系统设计或制造过程,以评估潜在的失效和影响。
FMEA的基本思想:遍历性、系统性。
我们可以在很多FMEA的教材上面看到这两个概念:遍历性、系统性。那么这两点在硬件设计的过程中是如何体现的呢?
FMEA的分析方法:
硬件法,从硬件的角度,对每个器件管脚输出分别去考虑故障模式、故障影响、检测补偿措施。(因为我们遍历了每一个器件、每一个器件的每一个管脚,所以这里体现了遍历性)
功能法,每个产品可以完成若干功能,而功能可以按输出分类。这种方法将输出一一列出,并对它们的故障模式进行分析。对应系统级、单板级分析。(此处按照功能和场景,对故障模式分别进行遍历和分析)。
我们在实现FMEA的时候,需要提升产品的可测试性,同时需要一些软件、硬件方法,对部分故障单元进行记录、复位、下单,等操作。
三、测试+实验方法
这就是用事实的方法来判断产品是否满足可靠性要求,并且来寻找产品可靠性的短板。
既然很多同学不相信方法一、和方法二。计算为虚,实验为实。真刀真枪上试验台,看看产品是不是扛得住折磨,特别是正式量产之前,要足够样本对可靠性进行摸底。
所以,我们经常需要做的一件事:拷机。
这里不是烤鸡,而是针对产品特性进行长时间工作测试,看看经不经得住考验。例如上图中,折叠屏手机,需要机械装置对其进行反复操作。
当然这个方法太慢了,我们需要对设备的寿命检验进行加速。我们一般采用的方法就是加大“应力”——热应力、机械应力、化学应力、电应力。
此处涉及内容比较多,各个行业有各个行业的实验标准,此处暂时不赘述。
但是实验是最真实可靠的检验标准。
四、故意搞破坏
这个方法就是为了检验我们产品,我们做故障注入的方法——FIT(
fault injection techniques 故障注入技术)。这个方法也是验收方法二(FMEA)的标准。
我们在设计阶段,就把FMEA的需求做好,然后在设计过程中,就考虑到FMEA的需求。同时设计好,最后怎么验收,也就是FIT测试的方法。
所以故意搞破坏,也要是有的放矢地搞破坏,不是想一出是一出。记得有测试人员说她的发卡掉到电路板上了,电路板掉电不能恢复。但是,无法复现,也不知道具体什么故障模式。FIT测试也是设计出来的,不是随意试出来的。
FIT方案设计基于两个原则:
一是保证测试的覆盖率
二是保证测试工作量的可执行性
用例设计中考虑故障出现的概率(根据FMEA分析结果)。对可能产生同一种影响的不同故障考虑故障模式的收敛,即只模拟一种故障模式(前提故障检测是通过检测这些故障模产生的故障影响来确定故障,而不是直接检测故障模式)
用FIT测试验收可靠性特性
五、防护设计
我们针对故意搞破坏的,还有应力,需要有针对性的做一些设计:热设计、结构设计、化学防护设计、EMC防护设计(防雷击、防浪涌、ESD)等等。
EMC防护
TVS防护电路的典型应用
电感、电阻、导线在电源防护保护电路中起的作用
电路级静电防护设计技巧与ESD防护方法
浪涌(1)
浪涌(2)雷击浪涌的防护
防护电路中的元器件
面向USB3.0的高效静电防护解决方案兼具完美的信号完整性
《防雷电路设计规范》
EMC设计考虑
热设计
(1)热设计的主要设计方法
(a)传导散热设计。如:选用导热系数大的材料,加大与导热零件的接触面积,尽量缩短热传导的路径,在传导路径中不应有绝热或隔热件等。
(b)对流散热设计。如:加大温差,即降低周围对流介质的温度;加大流体与固体间的接触面积;加大周围介质的流动速度,使它带走更多的热量等。
(c)辐射散热设计。如:在发热体表面涂上散热的涂层以增加黑度系数;加大辐射体的表面面积等。
(d)耐热设计。如:接近高温区的所有操纵组件、电线、线束和其它附件均应采取防护措施并用耐高温材料制成;导线间应有足够的间隙,在特定高温源附近的导线要使用耐高温绝缘材料。
热设计基础(上)
热设计基础(中)
热设计基础(下)
环境防护设计(三防)
(1)防潮湿设计
采取具有防水、防霉、防锈蚀的材料。
提供排水疏流系统或除湿装置,消除湿气聚集物。
采取干燥装置吸收湿气。
应用保护涂层以防锈蚀。
憎水处理,以降低产品的吸水性或改变其亲水性能
浸渍,用高强度和绝缘性能好的涂料来填充某些绝缘材料。
(2)防盐雾腐蚀设计
防止盐雾导致的电化学腐蚀、电偶腐蚀、应力腐蚀、晶间腐蚀等。
(3)防霉菌设计
采用防霉剂处理零部件或设备。
设备、部件密封,并且放进干燥剂,保持内部空气干燥。
在密封前,材料用足够强度的紫外线辐照,防止和抑杀霉菌。
另外还有一些,例如防硫化、防氧化、设计等。
电路板三防漆的作用
抗冲击、振动和噪声设计
(1)抗冲击、振动和噪声设计的主要方法
消源设计。如:液体火箭发动机的振动是导弹的一个主要的振源,通过消除发动机不稳定燃烧、改变推力室头部喷嘴的排列和流量,减小其振源,就能降低导弹振动的等级。
隔离设计。如:采用主动隔离或者被动隔离方法将设备与振源隔离开来。减振设计。如:采用阻尼减振、动力减振、摩擦减振、冲击减振等方法消耗或者吸收振动能量。
抗振设计。如:改变安装部位;提高零部件的安装刚性;安装紧固;采用约束阻尼处理技术;采用部件密封;防止共振等。
电子设备的抗振设计
电子产品结构可靠性概述
六、故障分析(失效模式与失效分析)
包括系统故障分析,以及器件失效分析。按照不用的层级,我们需要做不同深度的维度的失效分析。
器件选型时,我们需要考虑其失效模式,同时需要考虑其失效机理。如果发生失效了,我需要做好器件的失效分析。
需要了解失效分析,可以点击查看,之前的文章合集: 失效分析合集
电路级
一、硬件稳定性相关的电路设计
很多工程师觉得,如果这个没做好,或者没有做到,根本就不是合格的产品。前面说的系统级都是浮云。
冗余设计
降额设计
单板上电、复位设计
信号完整性
电源完整性
逻辑电平设计
PCB的可靠性设计
电源可靠性评估
器件级
电子元器件的可靠性筛选
器件可靠性与温度的关系
连接器的可靠性与质量问题分析
元器件降额规范(第一部分)持续更新
元器件降额规范(第二部分)持续更新
元器件降额规范(第三部分)持续更新
元器件失效分析方法
元器件失效机理有哪些
电子元器件的可靠性筛选
器件选型时,彰显“可靠性”功底
芯片爆米花现象以及解决办法
最坏情况电路设计对元件容差的考虑
电阻可靠性相关的参数
电阻器常见的失效模式与失效机理
电感——硬十《硬件可靠性实战》
八、管理
管理这两个字,有时看似很虚,但是通过管理,我们可以把人本身的不稳定因素剔除掉,避免因为人犯错误导致的不可靠。
这里包括研发管理、生产管理、物料管理、流程管理等等。我们后续通过文章和视频进行详细的介绍。