质量回溯

英炜硬十 2024-02-22 08:31:27

一、质量回溯的概念:

为了持续改进质量管理体系、提高客户的满意度,在公司内部提出了质量回溯的概念。

在降低纠正缺陷的成本、提高产品质量、提高顾客满意度方面取得了一定的成绩,是质量回溯活动成功开展的典型企业。华为公司的成功经验,不仅能让准备开展质量回溯的企业看到希望,也能获得开展该项活动的经验;同时,通过统计分析,总结质量回溯活动开展以来的情况,对当前阶段的问题进行根因分析,对完善质量回溯体系做出一点探讨,供后续企业借鉴,以免再犯同样的错误。

通过质量回溯制度的建立,将以前一些零散的改进流程和应急处理流程串接在一起,形成了一个系统的体系。例如:原来华为公司某个产品组发现使用的芯片存在一个 BUG(即设计上造成的缺陷),只能通过邮件知会其他的产品组;收到邮件的产品组才会去确认本产品组是否有同样的问题。至于是否知会其他产品线,其他产品线有没有对使用相同芯片的产品进行排查,没有流程进行跟踪和保证。在建立质量回溯体系之后,就可以在改进措施推广的环节明确要求发现问题的项目组必须及时知会其他的项目组,并且需要接收知会的项目组反馈回执,才能确认该环节完成,流程才可以关闭。如此可避免人为(管理)的因素导致遗漏。并且以前发现的外购芯片 BUG 没有数据库进行存放。现在有了质量回溯电子流,可以将发现的外购芯片 BUG 的现象、应急处理措施和有效规避措施都记录下来,为产品后来的改进或新开发提供参考。

质量控制是前向的、和流程相结合的过程,而质量回溯则是后向的过程。质量控制的目的是为了保持质量水平;质量回溯是为了提高质量水平。只有增加了质量回溯,质量体系才完善,才能形成闭环,和质量控制一起共同保证产品的质量。有了质量回溯的流程,才能真正地保证质量体系持续改进。

如果项目出了问题,不论是进度方面,还是质量方面,都没有合理的奖惩制度,并且没有做好回溯工作,不分析根因,责任不到户,大家自然就不在乎进度也不在乎质量。

例如:有些初创型公司,就是糊里糊涂地过日子,一开始设定“项目交付日期”,这是发现大家没有动力,不在乎这个时间。然后“项目交付日期”设置为“dead line”,搞不定就滚蛋,搞得好来点奖金。但是那个奖金又没有与市场价值对等,而且分到每个人手里,又没有多少。当deadline临近的时候,发现根本完不成任务,于是deadline一变再变,因为把大家开掉了,就没有人干活了。因为说过的话不作数,所以威信扫地,再也没有人在乎所谓的deadline,因为根本死不掉,也发不了财。

二、质量回溯的目的

质量回溯活动的根本目的是增强客户的满意度。质量回溯通过质量管理体系的持续改进,进而完成过程的持续改进,从而推动产品质量持续改进,实现增强客户满意度的目的。

FRACAS ,是“Failure Report Analysis and Corrective Action System” 的缩写,是“故障报告、分析及纠正措施系统”。利用“信息反馈,闭环控制”的原理,通过一套规范化的程序,使发生的产品故障能得到及时的报告和纠正,从而实现产品可靠性的增长,达到对产品可靠性和维修性的预期要求,防止故障再现。

FRACAS 是一个工作系统,建立并有效运行 FRACAS 是实现产品可靠性增长和提高产品质量的重要手段。它既有纠正已有故障的现实意义,又能对未来新产品发生类似的故障起到预防的作用。另外,通过 FRACAS 的运行,还可以积累大量处理故障的实践经验,对类似产品的改进与设计(如 FMEA,Failyre Mode Effects Analysis,故障模式影响分析)提供可供参考的信息,起到“举一反三”防止其它产品出现类似问题的作用。

质量回溯是 FRACAS 系统中的一部分,主要是针对有代表性的问题,进行故障分析、数据采集,找到根本原因,并且制定相应的纠正/改进措施,实施后进行验证和推广。进而达到花费相同的时间和资源,能够获得产品更高的可靠性;或者在相同的可靠性要求前提下,为企业节约经费,缩短开发和生产时间,为企业提高效益的目的。

三、根因分析是质量回溯活动核心环节

查找根本原因的过程,就是根因分析。根因分析是质量回溯活动最核心、最困难的环节,只有找到问题的根本原因,才能从根本上对我们的工作进行改进,从而持续满足顾客对我们的要求。根因分析正确,才能保证历史积累的数据正确,才能正真指导后续开发或改善此类问题。根因分析的具体步骤如下:

1) 对收集到的问题的客观数据进行分析和讨论;

2) 讨论时可以采用“头脑风暴法”、“层层追溯法”等工具,保证讨论的充分性;

3) 对讨论结果进行归纳,形成“原因逻辑树”,找出问题的根本原因。

根因分析的几种常用方法

根因分析常用的工程方法主要包括查检表、鱼骨图、柏拉图、直方图、散布图、控制图、数据分层法、5W1H、头脑风暴法和层层追溯法(5WHY)等等。运用这些工具,可以从经常变化的生产过程中,系统地收集与产品质量有关的各种数据,并

用统计方法对数据进行整理,加工和分析,进而画出各种图表,计算某些数据指标,从中找出质量变化的规律,实现对质量的控制。

所谓5why分析法,又称“5问法”,也就是对一个问题点连续以5个“为什么”来自问,以追究其根本原因。虽为5个为什么,但使用时不限定只做“5次为什么的探讨”,主要是必须找到根本原因为止,有时可能只要3次,有时也许要10次,如古话所言:打破砂锅问到底。5why法的关键所在:鼓励解决问题的人要努力避开主观或自负的假设和逻辑陷阱,从结果着手,沿着因果关系链条,顺藤摸瓜,直至找出原有问题的根本原因。

丰田汽车公司前副社长大野耐一曾举了一个例子来找出停机的真正原因

★问题一:为什么机器停了?

答案一:因为机器超载,保险丝烧断了。

★问题二:为什么机器会超载?

答案二:因为轴承的润滑不足。

★问题三:为什么轴承会润滑不足?

答案三:因为润滑泵失灵了。

★问题四:为什么润滑泵会失灵?

答案四:因为它的轮轴耗损了。

★问题五:为什么润滑泵的轮轴会耗损?

答案五:因为杂质跑到里面去了。

经过连续五次不停地问“为什么”,才找到问题的真正原因和解决的方法,在润滑泵上加装滤网。

如果员工没有以这种追根究底的精神来发掘问题,他们很可能只是换根保险丝草草了事,真正的问题还是没有解决。

5WHY不是问5次为什么,也不是问5个为什么,而是不断的挖掘更深层次的为什么。

四、质量回溯的步骤

质量回溯是在产品或服务出现质量问题时,通过调查和分析追溯到问题的根本原因,以便改进和预防未来质量问题的过程。以下是一些建议,帮助您进行有效的质量回溯:

明确目标和范围: 在开始质量回溯之前,明确你的目标是什么。确定要追溯的产品或服务的范围,以确保调查的深度和广度足够。

建立团队: 组建一个质量回溯团队,涵盖各个相关领域的专业人员,包括生产、质量控制、设计、工程等。确保团队成员有足够的经验和专业知识。

制定计划: 制定详细的质量回溯计划,包括调查方法、时间表、责任分配和资源需求。确保计划的执行能够迅速响应问题,同时保持详尽的记录。

收集信息: 收集与质量问题相关的所有信息,包括生产记录、测试数据、供应链信息等。确保收集的信息具有可追溯性和准确性。

分析数据: 使用统计和分析工具对收集到的数据进行深入分析,以确定问题的根本原因。通过趋势分析、统计方法等手段找出异常和模式。

追溯供应链: 如果问题涉及到原材料或零部件,追溯供应链以确定是否存在从供应商引入的问题。与供应商沟通,了解他们的质量控制流程。

制定纠正措施: 根据调查结果,制定纠正措施,解决当前问题。这可能涉及到生产过程的调整、工艺改进、培训等方面。

制定预防措施: 确保不仅解决当前问题,还要制定措施防止未来类似问题的发生。这可能包括改进质量管理系统、加强培训、提高监测和测试程序等。

沟通和文档: 在整个质量回溯过程中,确保及时沟通发现的问题和采取的措施。详细记录整个过程,以便将来的参考和持续改进。

持续改进: 将质量回溯的经验应用于持续改进质量管理系统。定期审查和更新质量控制流程,确保不断提高产品或服务的质量水平。

通过执行上述步骤,您可以更好地理解和解决质量问题,同时确保未来的质量管理过程更加健壮和可靠。

质量回溯是研发QA工作的一项重要工作内容。所谓质量回溯,是对重大的产品质量问题进行责任追溯,确定组织、流程的质量薄弱环节或人为不规范,要求限期纠正,在此活动中树立和提升研发全员质量意识。

所以,我们在这个流程中,看到,通过现象,一定要挖掘出“组织、流程的质量薄弱环节或人为不规范,要求限期纠正”。并且在这个过程中挖掘出好的优秀推行方法,举一反三。

两个案例

一、在我经历的质量回溯中,在我刚进入华为的时候有一个质量回溯影响深刻,项目有个电路板,电源启动到一半就掉电。在质量回溯过程中,发现在PCB检视这个环节,检视意见数刚刚达到华为公司的要求下限(按照整个公司的平均值进行设置上下限)。

而且在实际操作中,这个项目,我知道在制作度量表的时候,统计PCB检视意见的时候,发现数量不够,就从邮件中找一些意见进行凑数,并且把一些重复问题也没有进行处理。所以,看似检视意见的统计是一个统计值,但是如果刚刚达到下限,也是说明对PCB电路的检视程度是不够的。

二、另外一个案例是,我们一个多核DSP项目交付,统计PCB检视意见的时候,发现数量远远超过了公司规定的上限。为了能够通过技术评审点,实际操作的攻城狮,也优化了这个度量参数。结果,回板之后,发现一个电容放在了禁布区。后来质量回溯,确实是执行布局布线的互连工程师技能不足,但是互连部在杭州刚刚建立,老员工对电路板投入不足。如果在投板前,就把这个问题提高高度,并提高重视的话,一定能够提高大家的重视程度,换人,或者继续加大检视力度,也许就可以规避问题。所以这个质量回溯,在组织、流程上面都发现了问题。

我们需要做的关键点:

一旦出现问题,我们需要:弄清问题、复现问题、找到根因、解决问题。

弄清问题: 通过客户服务渠道收集用户反馈,详细记录问题的性质、频率和其他关键信息。弄清楚现场什么情况,是容易被大家忽略的步骤。因为研发人员不般不在现场,碰到客户不满意又比较着急,容易想一些快捷措施来应对客户的不满。但是往往,一些情况是客户自己使用不当、或者错误操作、或者现场环境情况又有很大差异。所以我们需要第一步快速弄清楚现场到底发生了什么。

迅速响应: 立即回应用户,表示理解并感谢他们的反馈。向他们保证你的团队会尽快调查问题。我觉得特别是很多国产芯片厂家,完全没有响应。

问题分类: 对问题进行分类,确定是否存在普遍性问题,还是只是个别用户的个别问题。这有助于了解问题的影响范围。

追溯产品: 如果可能,追溯受影响的产品,以确定问题是否局限在特定的批次、型号或其他特征。这有助于快速识别问题的来源。

实验和测试: 进行实验和测试,以模拟和复制用户报告的问题。这有助于识别根本原因,而不仅仅是表面症状。

紧急修复: 如果存在紧急性的问题,立即提供临时解决方案或紧急修复,以减少用户的影响。同时,继续进行深入的问题调查。

透明沟通: 在整个过程中保持与用户的透明沟通。告知他们问题的根本原因、解决方案的进展以及修复的时间表。

因为世界上没有完美的东西,所以就算再高的水平开发出来的产品也不可能像蒙娜丽莎一样完美无缺。所以不管大问题,还是小问题,都可能有问题。

网上问题造成网上事故,网上问题和单板返还三种后果:

(1)网上事故

最严重的当然是“网上事故”,网上事故一般是造成“安全事故”、“客户损失”、“客户投诉”。等等情况。

最严重的网上问题,自然是“安全事故”,危及客户人身安全。

例如曾经有一个海量级发货的设备,曾经因为修改背板时,动了一条电源线的走线。这个电源线,被修改后,隔着绿油与机框的金属件,碰在一起。由于绿油本身有一些绝缘的作用,所以在研发测试和生产测试的过程中并没有暴露这个问题。

但是由于在运输过程中,震动等原因,造成绿油在此过程中被磨损。在客户出上电后,有的设备出现了短路,发生了烧板的情况。短路示意图如图所示。

液态光致阻焊剂(俗称绿油)是一种保护层,涂覆在印制电路板不需焊接的线路和基材上,目的是长期保护所形成的线路图形,防止焊料流动。

这是非常严重的情况,如果着火,发生火灾,在运营商的机房,那是非常严重的事故。

但是,这种问题发生的时候,已经各种机框和单板发往五大洲,上百个国家。去解救这个问题,付出了非常惨重的代价。

网上事故的另外一种情况,是造成运营商的业务中断;按照话费一分钟0.6元计算,一个省的运营商的用户都是千万级,甚至亿级的。如果造成客户的一分钟的业务中断,带来的损失,如何计算?

正是由于这个原因,所以大多数运营商的设备,都有备份机制。例如核心侧设备的内部交换模块,一定是1+1冗余备份的;如果是DSP资源,一些信令处理单元一般都是N+1备份的。这样如果出现单点故障,既不影响用户业务,也不影响设备的容量规格。

第三种情况,就是客户投诉。有可能虽然没有造成什么严重的后果,如果客户投诉了,这个问题也会比较严重。例如,新机框和新单板邮寄到运营商处。这是出现了,电路板插不进去的情况,自然客户会非常恼火,觉得非常影响公司的品牌形象。那这个事情就会非常大。或者很早以前,任老板在现场的时候,某四川移动的领导,说“你们的设备还不如大唐好看”。于是,结构部的人就倒霉了。

网上问题:

如果网上出了问题,那么一定通过一些手段,例如原先设计好的一些“可维护性”、“可测试性”的软硬件设计,尽量地去定位问题。当然这些措施都不能影响客户的正常业务。

另外,会有一些寄存器,或者一些日志,去查看设备异常的记录。还可以查看一些设备的“临终遗言”。临终遗言,会利用处理器复位前,向存储区域存储的关键信息,便于后续去发现和解决问题。

单板返还:

一线交付的人员一般都会抱怨:“你们研发都是三招:复位,下电,换单板”。

其实网上问题分析,如果已经用上这三招了,那说明这个问题已经比较严重了,或者基本上是硬件问题了。

可是“单板返还率”是非常重要的KPI,决定着大家的“考评”。所以维护人员都希望单板不要返还,或者不要记入指标。如果真的硬件已经不能正常工作了,那么一定会操作这个单板返还到实验室,进行失效分析,找失效原因。

以上不管是哪个级别的问题,哪怕是实验室发现的一些问题,都非常重视。因为如果任何一个问题,都可能造成不可预见的效果。所以对每个问题都刨根问题,分析彻底。

另外就是在做一些试验(EMC、环境),或者在测试的过程中,发现和暴露的问题,都会当做网上问题一样重视,进行一些问题的攻关。为什么呢?

因为有一个理论,问题越早解决,所付出的代价越小。

问题攻关的三个信条:

①凡是“实验室”问题,如果不解决的话,一定会在网上出现。

②凡是出现过的问题,一定可以被复现。

③凡是不能复现的问题,一定是没有找到复现的规律。

案例1、当时有一款NetLogic的处理器(NetLogic的网络处理器来自RMI。RMI收购了处理器创业公司Sandcraft,它本身又被NetLogic购买。后来NetLogic被博通收购),出现了器件失效的情况,但是网上还没有出现类似的情况。

但是,有没有找到规律,是如何让器件失效的。于是双方进入了扯皮阶段。但是通过X光照射,发现失效的器件是焊盘开裂。但是是什么让焊盘开裂呢?当时怀疑了应力,高低温。试了各种措施,但是始终没有答案。

后来大家讨论和试验的过程中,就有同事发现,单纯的低温和高温,都不足以引起器件失效。但是当高低温经历次数过多之后,器件失效的概率明显提高。后来这个同事通过多次试验,反复地使用热风枪和液氮,加速器件的老化。就非常容易出现焊盘开裂的情况。

当拿着这个结论再去找Netlogic时,对方只能投降,承认问题,同意修改器件的工艺。

非常说明问题的两件事情:

①后来实验室出现故障的单板,基本都是厂家改进工艺前的问题。

②另一个发货量很大的产品,在2年后,网上出现大规模这个问题的单板。

案例二、如果在试验中发现问题,一定会把问题分析清楚,或者把问题解决掉。也许这个问题解决很难,经历时间很长。但是这个问题一定把记录下来,根据优先级把问题最后解决掉。

例如曾经一个同事在做试验的时候,发现三极管有漏电流。理论分析之后,由于三极管作为开关管使用,所以理论分析不可能产生这么大的电流,导致电压变化;把三极管更换成MOS管,也无济于事。由于这个漏电流是在低温的时候才会出现的。所以当时就用液氮,让三极管处于极其低温的状态(-10度以下),试验中温度情况也差不多在这个范围(-40度到0度)出现问题。

但是经过两周的试验,都没有找到规律,偶尔会复现一下问题,完全没有规律。我跟那个同事觉得非常费解,当时就观察天气,觉得这个三极管的漏电流感觉与天气有关。如果阴天,就容易复现,如果晴天就完全不复现。通过这个规律,我们开始怀疑“湿度”作祟。

后来,我们通过增加器件的湿度,果然非常容易复现问题。

把我们的结论去找厂家,厂家确认SOT封装的器件,在高湿度低温的前提下确实会有漏电流的现象。这个漏电流不是通过PN节流走的,所以跟PN节的漏电流的规律完全不符合。而是从SOT32的塑料封装上漏走的电流。

后来通过调整电路参数,规避了这个问题。所以整个分析和试验的过程,哪怕是极端的环境条件下的问题,也绝不放过。其实产品的问题攻关,就是这样的,扎扎实实的解决每一个问题之后,产品质量才有试制性的提升。

形式:

① 攻关组:任何问题攻关,为了表示重视,一般都会成立个什么问题攻关组。就是把相关的人,还有有经验的人组织起来,一起参与讨论,这样可以拓宽思路,同时丰富经验。避免钻牛角尖,或者无头苍蝇。

② 例会:重大的问题攻关,一定是每天例会,把前期讨论的问题汇总跟踪,把每项措施对应的结论记录下来,明确下一步的措施。

③ 日报:这种问题攻关,一定是领导重视的,所以每天都会发布进展。当然领导也会看,偶尔也会发现很久没有进展,之后会调配资源,协调兵力。

④ 总结:问题解决之后,一定把中间的九九八十一难,整理成案例、培训,给大家分享。这样所有的同事,虽然没有亲身经历这个攻关过程。可以通过分享,学习相关专业知识,和问题解决的思路。得到提升。

问题攻关是痛苦的,问题突破了也是非常有成就感的,痛并快乐着。最后两句话:越是不舒适区,其实就是你成长的机会。越是困难的时候,越是要咬牙顶住;只要你坚持,你离成功永远都只有一步之遥。

五、抓住关键质量指标

质量指标是评估产品、服务或过程质量的标准,它们提供了对组织绩效的关键洞察。以下是一些常见的关键质量指标:

缺陷率(Defect Rate): 衡量产品或服务中存在的缺陷数量与总产量或服务交付量之比。较低的缺陷率通常表示更高的质量水平。

不合格品率(Non-Conforming Product Rate): 评估产品不符合规格或标准的比例。这可以通过测试、检验或客户投诉来确定。

客户开箱故障率:是一个关键的质量指标,它衡量客户在收到产品并打开包装后遇到的故障或问题的比例。这一指标可以为企业提供有关产品交付后客户体验的重要信息。这个开箱即故障,对客户信任度的损伤非常大。我们需要完善出厂测试,反复深入地研究早期失效模式,装配、运输等维度,降低“开箱故障率”。

客户满意度(Customer Satisfaction): 通过调查、反馈或其他方法,了解客户对产品或服务的满意程度。高客户满意度通常是质量管理成功的指标。

寿命(Reliability): 衡量产品或服务在特定条件下保持性能的时间。对于耐用品或关键系统,高可靠性是至关重要的。

生产效率(Production Efficiency): 衡量生产过程的效率,包括资源利用、生产速度和废品率等。高生产效率通常与高质量相关。

成本质量比(Cost of Quality): 衡量质量管理所花费的费用与因质量问题而产生的成本之比。低成本质量比通常是质量管理成功的指标。

交付准时率(On-Time Delivery): 评估产品或服务按照承诺的交付时间提供的准确性。及时交付是客户满意度的一个关键方面。

制程稳定性(Process Stability): 衡量生产过程的一致性和稳定性。稳定的过程有助于减少变异,提高质量水平。

员工培训和认证率(Employee Training and Certification Rate): 衡量员工是否接受了足够的培训,并且他们是否获得了相关的认证。良好的员工培训可以提高生产效率和质量。

返工率(Rework Rate): 衡量需要重新处理的产品或服务的比例。较低的返工率表示更高的一次性通过率。

这些指标可以根据组织的具体需求进行调整,并且通常会结合使用,以提供对质量管理绩效全面的了解。选择适当的质量指标有助于组织更好地监测、评估和改进其质量管理体系。

六、持续改进意识

有些初创型企业,由于追求细节的完美,一个版本还没有交付,就废弃原有的版本,另起炉灶。在大公司也有类似于这样的问题,经常喜欢做改革派。如果说大公司往往为了体现新领导有作为,或者政治导向,那么小公司这么反复的做返工的工作,不是智商有问题,就是思路不清晰。

其实,有问题解决问题,不在原有的基础上前进,那么前人走过的错路,和陷阱,你仍然会再经历一遍。

所以持续改进,有两层含义:既往,开来。

任高露洁公司CEO长达20余年的鲁本·马克说过一番话:“企业领导人应将公司的业绩看成是一 条贝尔曲线 , 曲线的左边代表非常差的业绩 , 右边代表非常优秀的业绩,大多数公司都是位于曲线的中间部位,管理者的任务就是要不断地逐步改进 , 使整条曲线 向右移动。这个过程既非革命性的,也不会引人注目,但只要持之以恒,企业就能取得成功。”

质量回溯就是重要的持续改进手段。是一种上升到一定严重级别的持续改进。其实你的公司现在什么水平不重要,而重要的他是不是每天都在进步。

研发管理系列文章

如何避免硬件项目进度拖延

好的管理是“过程管理”

项目成功的精髓:做好价值管理

从“公司战略”落地到“需求管理”

研发KPI迷思

绩效管理

了解全流程开发,可以了解这本书

有没有一本书读后,相当于华为工作十年经验?

0 阅读:0

英炜硬十

简介:感谢大家的关注