TPM故障树分析法简称FTA (Failure Tree Analysis),是1961年为可靠性及安全情况,由美国贝尔电话研究室的华特先生首先提出的。其后,在航空和航天的设计、维修,原子反应堆、大型设备以及大型电子计算机系统中得到了广泛的应用。目前,故障树分析法虽还处在不断完善的发展阶段,但其应用范围正在不断扩大,是一种很有前途的故障分析法。
故障树又称问题树、演绎树或分解树等。故障树是将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。故障树分析法,是一种以树状图形系统地分析存在的问题及其相互关系的方法。树根:产生中心问题及子问题的原因;树干:讨论确定的有研究价值的中心问题;枝叶:与中心问题相关联的子问题;果实:解决问题的策略。
把一个已知问题当成树干,然后开始考虑这个问题和哪些相关问题或者子任务有关。每想到一点,就给这个问题(也就是树干)加一个“树枝”,并标明这个“树枝”代表什么问题。一个大的“树枝”上还可以有小的“树枝”,如此类推,找出问题的所有相关联项目。故障树主要是帮助你理清自己的思路,不进行重复和无关的思考。
对于问题的分解我们期望引入系统思考的思路,即把问题分解为子问题,将子问题分层罗列,并要考虑问题之间的交互作用。问题树的方法主要用在结构化问题分析上,因为有了问题树就清楚了整个问题的构成,就可以对问题展开全面的调查研究和分析。故障树能保证解决问题的过程的完整性;它能将工作细分为一些利于操作的部分;确定各部分的优先顺序;明确地把责任落实到个人。故障树是所界定的问题与议题之间的纽带,它能在解决问题的小组内达成一种共识。
故障树的方法主要用在结构化问题分析上,因为有了故障树就清楚了整个问题的构成,就可以对问题展开全面的调查研究和分析。由于做了全面分析,因此可以保证不放过任何一个问题症结。而非结构化的方法往往并不需要很细致地进行问题分解,当问题产生后非结构化分析的方法首先是根据个人的经验先假设可能产生问题的分支和要素,再收集数据和通过分析去论证自我假设的正确性,这种方法在实际运用当中是非常有效的。
问题分析中的第一步就是细化问题的定义。在问题定义阶段我们仅仅给出现状和期望的差距即可,但是究竟是什么问题,问题的症状表现如何,这些内容就属于问题定义的细化,由于在整个细化过程中就会涉及调查研究,然后根据收集回来的数据分析得出结论,这个过程其实就已经是问题分析的过程。
如果你不知道你要去哪里,那么你可以选择任何一条路。分析问题的过程就是需要知道具体的目标,同时通过问题细化后给出结构化的问题定义才能够互斥,并且综合无遗漏。问题由哪些部分组成,一个是问题表象本身,一个是问题所作用的对象。这两者都存在问题分解和细化的过程,通过分解后才能够形成更加细小和容易解决的组件。举例来说,我现在很难受,这个问题的作用对象是我,而我这个对象是可以分解的,即是生理上的难受还是心理上的难受,如果是身体上的是外部的还是内部的,内部的可能又涉及具体哪个部位难受。另外问题本身的表象也是可以分解的,是悲伤、痛苦还是焦虑,如果是痛苦的是隐痛、阵痛还是酸痛?通过这两方面的分解后就基本清楚了如何对症下药。以此类推,就是这样将问题分解的。
采用鱼骨图进行问题根源分析,是一种很常见的方式。当我们遇到问题的时候,对问题本身的分解和分析也同样重要。我们可以采用思维导图或故障树的方法对问题本身进行分解,分解后你才会发现问题的产生不是单一的,而是由各种问题要素相互作用后才产生的,问题的表象也是由各种小问题的表象共同聚合而成的。有了这个思路就知道了问题本身远远比黑白是非要复杂得多,知道了解决问题不能忽视了整体,而片面地针对表象。一个问题要解决,关键的问题要素就是能够使大家都满意,而这种分析后我们就容易采用80/20原则确定问题的关键要素,并有针对性地去设计数据收集、分析和调查方案和行动。
从系统的角度来说,故障既有因设备中具体部件(硬件)的缺陷和性能恶化所引起的,也有因软件,如自控装置中的程序错误等引起的。此外,还有因为操作人员操作不当或不经心而引起的损坏故障。 总的说来,故障树分析法具有以下一些特点。 它是一种从系统到部件,再到零件,按“下降形”分析的方法。它从系统开始,通过由故障符号绘制出的一个逐渐展开成树状的分枝图,来分析故障事件(又称顶端事件)发生的概率。同时也可以用来分析零件、部件或子系统故障对系统故障的影响,其中包括人为因素和环境条件等在内。 它对系统故障不但可以做定性的而且还可以做定量的分析;不仅可以分析由单一构件所引起的系统故障,而且也可以分析多个构件不同模式故障而产生的系统故障情况。因为故障树分析法使用的是一个故障图,因此,不论是设计人员或是使用和维修人员都容易掌握和运用,并且由它可派生出其他专门用途的“树”。例如,可以绘制出专用于研究维修问题的维修树,用于研究经济效益及方案比较的决策树等。 由于故障树是一种故障门所构成的故障图,因此适合于用电子计算机来计算;而且对于复杂系统的故障树的构成和分析,也只有在应用计算机的条件下才能实现。 显然,故障树分析法也存在一些缺点。其中主要是构造故障树的多余量相当繁重,难度也较大,对分析人员的要求也较高,因而限制了它的推广和普及。在构造故障树时要运用故障运算,在其未被一般分析人员充分掌握的情况下,很容易发生错误和失察。例如,很有可能把重大影响系统故障的事件漏掉;同时,由于每个分析人员所取的研究范围各有不同,其所得结论的可信性也就有所不同。
故障树分析图通常用于说明可能会导致故障的事件,以防止故障的发生。故障树分析图通常用在 Six Sigma 进程中,特别用在 Six Sigma 业务改进进程的分析阶段。 绘制故障树分析图时,可从顶层事件(或故障)开始。然后,可以使用事件形状和门形状从上到下来说明可能导致故障的进程。完成该图后,即可使用它来确定消除故障起因的方法,找到防止此类故障的纠正措施。
事件符号底事件底事件是故障树分析中仅导致其他事件的原因事件
圆形符号是故障树中的基本事件,是分析中无需探明其发生原因的事件,基本事件符号,不能再往下分析的事件。
菱形符号是故障树分析中的未探明事件,即原则上应进一步探明其原因但暂时不必或暂时不能探明其原因的事件.它又代表省略事件,一般表示那些可能发生,但概率值微小的事件;或者对此系统到此为止不需要再进一步分析的故障事件,这些故障事件在定性分析中或定量计算中一般都可以忽略不计,正常事件符号,正常情况下存在的事件。
矩形符号,是故障树分析中的结果事件,可以是顶事件,由其他事件或事件组合所导致的中间事件和矩形事件的下端与故障门连接,表示该事件是故障门的一个输入
顶事件是故障树分析中所关心的结果事件
中间事件是位于顶事件和底事件之间的结果事件
特殊事件特殊事件指在故障树分析中需用特殊符号表明其特殊性或引起注意的事件
房形符号是开关事件,在正常工作条件下必然发生或必然不发生的事件,当房形中所给定的条件满足时,房形所在门的其它输入保留,否则除去.根据故障要求,可以是正常事件,也可以是故障事件,省略事件,不能或不需要向下分析的事件。
扁圆形符号是条件事件,是描述故障门起作用的具体限制的事件
故障符号与门,表示B1、B2两事件同时发生(输入)时,A事件才发生(输出)
或门,表示B1或B2任一事件单独发生(输入)时,A事件都可以发生(输出)
非门表示输出事件是输入事件的对立事件
表决门表示仅当n个输入事件中有k个或k个经上的事件发生时,输出事件才发生
条件与门,表示B1、B2两事件同时发生(输入)时,还必须满足条件a,A事件才发生(输出)
条件或门,表示B1或B2任一事件单独发生(输入)时,还必须满足条件a,A事件才发生(输出)
限制门,表示B事件发生(输入)且满足条件a时,A事件才发生(输出)
转入符号,表示在别处的部分树,由该处转入(在三角形内标出从何处转入)/ 转出符号,表示这部分树由该处转移至其他处,由该处转入(在三角形内标出向何处转移)
相似转移符号用以指明相似子树的位置,转向和转此字母代号相同,事件的标号不同
(2)布尔代数与主要运算法则。
在故障树分析中常用逻辑运算符号(·)、(+)将各个事件连接起来,这连接式称为布尔代数表达式。在求最小割集时,要用布尔代数运算法则,化简代数式。这些法则有:
①交换律 A·B=B·A
A+B=B+A
②结合律 A+(B+C)=(A+B)+C
A·(B·C)=(A·B)·C
③分配律 A·(B+C)=A·B+A·C
A+ (B·C)=(A+B)·(A+C)
④吸收律 A·(A+B)=A
A+A·B=A
⑤互补律 A+A′=Ω=1
A·A′=0
⑥幂等律 A·A=A
A+A=A
⑦狄摩根定律 (A+B)′=A′+B′
(A·B)′=A′+B′
⑧对合律 (A′)′=A
⑨重叠律 A+A′B=A+B=B′+BA
(3)故障树的数学表达式。
为了进行故障树定性、定量分析,需要建立数学模型,写出它的数学表达式。把顶上事件用布尔代数表现,并自上而下展开,就可得到布尔表达式。
例如:有故障树如图1所示。
图1 未经化简的故障树
未经化简的故障树,其结构函数表达式为:
T=A1+A2
=A1+B1B2B3
=X1X2+(X3+X4)(X3+X5)(X4+X5)
=X1X2+X3X3X4+X3X4X4+X3X4X5+X4X4X5+X4X5X5+X3X3X5+X3X5X5+X3X4X5
(4)最小割集的概念和求法。
①最小割集的概念。
能够引起顶上事件发生的最低限度的基本事件的集合(通常把满足某些条件或具有某种共同性质的事物的全体称为集合,属于这个集合的每个事物叫元素)。称为最小割集。换言之:如果割集中任一基本事件不发生,顶上事件绝不会发生。一般割集不具备这个性质。例如本故障树中{Xl,X2}是最小割集,{X3,X4,X3}是割集,但不是最小割集。
②最小割集的求法。
利用布尔代数化简法,将上式归并、化简。
T=X1X2+X3X3X4+X3X4X4+X3X4X5+X4X4X5+X4X5X5+X3X3X5+X3X5X5+X3X4X5
=X1X2+X3X4+X3X4X5+X4X5+X3X5+X3X4X5
=X1X2+X3X4+X4X5+X3X5
得到4个最小割集{X1,X2}、{X3,X4}、{X4,X5}、{X3,X5}。
(5)最小割集的作用。
最小割集表明系统的危险性,每个最小割集都是顶上事件发生的一种可能渠道。最小割集的数目越多,系统越危险。现分述如下:
①表示顶上事件发生的原因。事故发生必然是某个最小割集中几个事件同时存在的结果。求出故障树全部最小割集,就可掌握事故发生的各种可能,对掌握事故的规律,查明事故的原因大有帮助。
②-个最小割集代表一种事故模式。根据最小割集,可以发现系统中最薄弱的环节,直观判断出哪种模式最危险,哪些次之,以及如何采取预防措施。
③可以用最小割集判断基本事件的结构重要度,计算顶上事件概率。
3 故障树建树及原则
故障事件和基本事件是部件(设备和人都被看做部件)的故障表示。它分为故障破坏和故障。
部件的故障破坏是一个异常情况,它要求在正常功能重新恢复之前,必须进行修复。例如,当泵轴承断裂,可视为故障破坏。而部件故障是一旦异常条件得到修正,它的功能即可以恢复。例如,开关受潮引起接触故障。一旦干燥后,功能就正常了。
不论将部件异常划分成为故障还是故障破坏,故障树分析的基本假定都是把所有部件作为处于故障状态或处于正常工作状态来处理。通常,一系列演降(递降)运行状态的分析都是假设。分析人员必须确定故障树中所有的事件“成立”或“不成立”。故障树中故障和故障破坏可分为3种:①主故障和故障破坏;②副故障和故障破坏;③指令性故障和故障破坏。
“主故障破坏和故障”是指当部件在设计规定条件下,运行时发生的异常情况。例如,压力容器在设计的压力范围的,有用焊接的缺陷,而产生破坏,这就是一个主故障破坏。主故障破坏和故障通常属于故障部件本身的缺陷,不属于某些外力或条件,即部件自身引起故障破坏或故障。
“副故障和故障破坏”指设备操作条件超出设计范围引起的设备异常情况。例如,压力容器由于其他系统故障或故障破坏,引起本压力容器内部的压力升高,且超过设计极限,引起破裂,这就是“副故障破坏”。“副故障”不是由设备自身缺陷引起的,而是由于某些外力或条件所致。
指令隆故障是部件的功能符合设计要求时,设备异常,由于部件功能未按要求它的操作被称为异常。例如,温度报警仪在工艺中,由于温度传感器故障未进行高温报警,传感器的故障是由于高温时报警仪未响,那么,没有采取必要的处理。指令故障和故障破坏不会对设备产生故障。
在故障树中通常出现这3种故障和故障破坏,故障树分析的主要任务之一就是识别导致故障事件发生的基本事件。这些事件是主要故障和故障破坏,识别对部件有责任的故障。次要和指令故障是中间事件,可以进一步由它的主要故障和故障破坏确定。
1)分析过程
为了确定问题,必须选取:
(1)一个顶上事件。
(2)分析的边界条件。
这些边界条件包括:
·系统本身边界;
·解决问题的深度;
·初始条件;
·不允许的事件;
·现有的条件;
·其他假设。
顶上事件是事故(或不希望事件),它是故障树分析的主题(这一事件一般是通过前期安全评价确定的)。就一个被破坏的系统或工厂而言,确定顶上事件应很严谨,因分析范围太宽或顶上事件确定不当都会导致分析失效。例如,用“工厂火灾”作为顶上事件,对故障树分析来说太过笼统。代之以“在工艺氧化反应器正常运行中发生失控反应”作为顶上事件,就很恰当。因为它说清了“发生了什么事”、“在何处发生”、“何时发生”。“什么事”讲清了事故的类型(失控反应),“何处”讲清了事故发生的设备和系统(工艺氧化反应器),“何时”讲清了整个系统当时的状态(正常运行中)。
2)实物系统边界条件
在故障树中它包括:设备、设备与其他工艺的界面、公用/辅助系统。除了系统边界,分析人员应列出故障树事件的解决方案(应简单说明在故障树中的细节)。例如,电动阀可作为一个单一设备或作为几个硬件条件(即阀体、类型、电动操作人员,必须的开关装置、动力电源,阀破裂),安全研究的评价水平较高的人员在分析时,常从FMEA或预先分析中获取故障详细资料。对故障树的求解只限于满足分析主题的需要,并与已有的资料相适应(匹配)。
另一边界条件是初始设备状态和初始运行情况。这种边界条件说明了故障树分析的系统和设备(当时)状况。对于实物体系边界内的所有设备,分析人员都要给定其状态,如哪个阀门是开的,哪个阀门是关的,哪个泵开,哪个泵关等。这些边界条件说明系统是否处于正常或非正常状态。
3)不允许事件
对于故障树分析来说,不允许事件被认为是令人难以置信的,或因某种原因,它不在分析所考虑的范围内,现有条件(也是故障树分析的目的)是认为确实所发生的事件。在已发生的故障中通常不出现未允许事件或现有条件;但是作为编制故障树结果,编制其他故障事件时它们的影响应考虑进去。
4)编制故障树结构
故障树结构由顶上事件开始,逐步展开直至找出基本事件。分析人员从顶上事件开始,逐步扩展到下一层,用推理法找出原因和影响,以确定引起顶上事件必须的有效原因的中间事件,用故障树表示非常简单,可用其他方法(像FMEA)来评价之。
与顶上事件有联系的顶上事件的中间原因在故障树中显示出来。如果某一中间原因直接导致顶上事件发生,就用“或逻辑门”把它与顶上事件连接起来;如果需要所有中间原因同时存在才能发生顶上事件,则它们与顶上事件的连接是使用“与逻辑门”。顶上事件的所有中间事件用上述方式来处理。对每个中间事件,在故障树中用相应的逻辑门确定;分析人员逐步扩展故障树直至找出所有故障原因的基本事件。
为了提高故障树编制方法的同一性和完备性,表1列出了几种基本原则。这些基本规则强调系统地和规范地编制故障树的重要性。
违背这些规则进行简化,会导致故障树不全面,虽然表面上是重要的故障组合。这类简化还会限制故障树的交流使用,因为只有编制该故障树的人才能解释其逻辑方式。
有了各基本事件的发生概率,就可计算顶上事件的发生概率。
本文为冠卓咨询原创文字作品,任何人或组织不得对本文进行篡改,转载或以盈利为目的行为,一经发现,将负法律责任。