平均故障间隔时间:
说明和标准
第78号白皮书
版本 1
作者 Wendy Torell 和 Victor Avelar
白皮书现收录于施耐德电气白皮书资料库 目录
点击内容即可跳转至具体章节
简介
2什么是故障?什么是假设? 2定义的可靠性、可用性、MTBF 3
和MTTR
预测和估计MTBF 的方法 5结论 8资源 9
简介
什么是故障?什
平均故障间隔时间 (MTBF) 已经作为一种决策依据使用了60多年。随着时间的推移,已经出现了20多种预测生命周期的方法和程序。因此,MTBF 一直是一个争论不休的话题,这也就不足为奇了。有一个领域这种情况尤为明显,那就是设计放置IT 和电信设备的任务关键设施。如果短时间的停机也可能会对业务的市场价值产生负面影响,那么,支持这个网络环境的物理基础设施就一定要可靠。如果没有透彻地了解MTBF ,可能就无法实现业务可靠性目标。本白皮书通篇使用示例来说明MTBF 的方方面面,旨在化繁为简、澄清误解。
在评估任何MTBF 值时,都应首先问这两个问题。如果不回答这两个问题,讨论将毫无意义。人么是假设?
们在提到MTBF 时经常不提供对故障的定义。这种做法不仅仅会误导,而且是毫无意义的。这就有点像人们在宣传汽车的节油性时使用“每箱油行驶的英里数”这个指标,但同时却不提供油箱的容积(公升或加仑)。为了消除这种不确定性,应该表明故障有两种基本定义:
1. 产品整体失效,无法实现其所应实现的功能。1
2. 个别组件失效,无法实现其应实现的功能,但不是产品整体失效,无法实现该产品应实现
的功能。2
以下两个示例说明产品中的特定故障模式也许属于故障,也许不属于故障,具体将取决于所选的故障定义。
示例1:
如果RAID 阵列中的某个冗余磁盘出现故障,该故障不会妨碍RAID 阵列实现其应实现的功能,即随时提供关键数据。不过,该磁盘故障会妨碍磁盘阵列中的某个组件实现其应实现的功能,即提供存储容量。因此,根据定义1,这种情况不属于故障,但是根据定义2,这种情况属于故障。
示例2:
如果UPS 的逆变器出现故障,UPS 切换到静态旁路,该故障不会妨碍UPS 实现其应实现的功能,即为关键负载供电。不过,该逆变器故障会妨碍UPS 的某个组件实现其应实现的功能,即提供调节电压功能。与上一个示例类似,只有根据第2个定义,这种情况才属于故障。
如果只有两个定义,定义故障看起来也很简单。但是,如果产品正面临信誉危机,问题就和
MTBF 本身一样复杂了。实际上,故障定义不只两种,而是有无数种。根据产品类型,制造商可能有许多故障定义。质量至上的制造商会跟踪所有故障模式,以便控制工艺流程。这样做的一个好处是可以消除产品缺陷。因此,需要更多问题来准确地定义故障。
客户的误用是否属于故障?设计者可能忽视了许多人为因素,这将导致用户很容易误用产品。供应商的维修技术人员造成的负载停用是否属于故障?产品设计本身是否会提高风险程序出现故障的可能性?如果计算机上的LED (发光二级管)出现故障,是否属于故障(虽然它没有影响计算机的运行)?如果耗材(例如电池)的使用期比预期的时间要短,是否属于故障?运输造成的损坏是否属于故障?这可能表明包装的设计不当。很明显,定义故障非常重要。必须了解故障的定义,才能解释任何MTBF 值。上述问题以及其他类似问题是人们做出可靠决策的前提。
有种说法是工程师从不会犯错;他们只是做出了不当的假设。同样说法也适用于估计MTBF 值的人。需要通过假设来简化估计MTBF 的流程。收集计算准确数字所需的数据几乎是不可能的。不过,所有假设必须是基于实际情况。在整个白皮书中,对估计MTBF 时所使用的常见假设都进行了说明。
1 IEC-50 2
IEC-50
MTBF 既影响可靠性,也影响可用性。要理解MTBF 方法,一定要先透彻地了解这两个概念。可靠性和可用性之间的区别通常不为人知或被人曲解。高可用性和高可靠性通常是相辅相成的,但是这两个术语不可以互换。
可靠性是指系统或组件在规定的条件下按照指定的时间实现其应实现功能的能力 [IEEE 90]。
换句话说,就是系统或组件在规定的任务时间内无故障运行的可能性。飞行任务就是说明这个概念非常好的
示例,飞机起飞以完成任务时,会记住一个目标:按照计划安全地完成飞行(没有灾难性故障)。
可用性则是指系统或组件在需要使用时正常使用的可能性 [IEEE 90]。
可以将可用性看作是系统或组件在指定条件下、在指定的时间内可以实现应实现功能的可能性。可用性由系统的可靠性以及发生故障后的恢复时间决定。如果系统长时间连续运行(例如持续运行10年的数据中心),故障是不可避免的。人们经常会考虑可用性,因为如果真的发生故障,那么关键的一点就是如何快速地恢复系统。在上面的数据中心示例中,采用可靠的系统设计是最关键的因素。但是如果发生故障,最重要的一点就是让IT 设备和业务流程尽快恢复正常,使停机时间最短。
MTBF (即平均故障间隔时间)是系统可靠性的一个基本指标。它通常用小时数作为单位。MTBF 值越大,产品的可靠性越高。方程式1说明了这种关系。
方程式 1
定义的可靠性、可用性、MTBF 和MTTR
可靠性=e
⎛时间⎞−⎜⎟⎝MTBF ⎠
对MTBF 的常见曲解是认为MTBF 等同于系统出现故障之前预计的工作小时数(即“服务期”)。不过,虽然人们有时会看到MTBF 值在100万小时这个级别,但是认为系统真正可以持续无故障运行100年是不现实的。这些数字经常如此高的原因在于,它们是根据仍处于“有效期”或“正常使用期”的产品的故障率计算得出的,而且计算时假设产品的故障率永远保持在这个水平。而在产品生命周期的这个阶段,产品的故障率是最低的(并且保持不变)。实际上,产品的各种磨损方式会使其生命周期远早于MTBF 值结束。因此,不应在产品的服务期与其故障率或MTBF 之间建立任何直接的关系。有的产品具有非常高的可靠性 (MTBF),但是预计服务期很短,这是完全有可能的。以人为例:
以 50 万个 25 岁的人作为抽样。
在一年的时间内,收集这些人口的“故障”(死亡)数据。 这些人口的生活时间是 500000 1 年 = 50 万人年。 在这一年当中,有 625 个人“出现故障”(去世)。 故障率为 625 个故障/50 万人年 = 0.125%/年。 MTBF 是故障率的倒数,即 1/0.00125 = 800 年。
所以,尽管 25 岁的人 MTBF 值较高,预期寿命(服务期)却短得多,因此这两者之间没有任何关系。
实际上,人不会表现出稳定的“故障率”。随着人逐渐变老,会出现更多的“故障”(官能老化)。因此,要计算等同于服务期的MTBF ,唯一可行的方法是等待所抽样的25岁人群全部死亡。然后,可以计算他们的平均寿命。大多数人会同意这个数字应该在75-80岁这个级别。
所以,25岁人的MTBF 是多少?80还是800?都对!但是,同样的人群怎么会得到两个截然不同的MTBF 值呢?这都是由于计算时所基于的假设造成的!
图1
说明稳定故障率的浴缸曲线
平均故障间隔时间:说明和标准
如果MTBF 为80年可以更加准确地反映产品的寿命(在此例中是人),这是更好的方法吗?很明显,这种方法更加符合直觉。不过,有许多可变因素会限制对某些商业产品(例如UPS 系统)使用这种方法。最大的限制就是时间。要做到这一点,抽样人口必须全部死亡。对于许多产品,这个时间在10-15年这一级别。另外,即使可以等待这段时间后再计算MTBF ,在跟踪产品的过程中仍会遇到问题。例如,制造商如何了解产品是否仍在使用,如果他们已经不使用并且没有报告呢?
最后,即使上述所有情况都可能实现,但技术的变化如此之快,到了可以计算出这个数字的时候,这个数字也没有任何意义了。谁还想知道已被数次技术更新而淘汰的产品的MTBF 值呢?
MTTR (即平均修复时间或平均恢复时间)是预计系统从故障中恢复的时间。这可能包括诊断问题的时间、维修技术人员到位的时间以及实际维修系统的时间。与MTBF 类似,MTTR 使用的单位也是小时数。正如方程式2所示,MTTR 影响可用性,但不影响可靠性。MTTR 越长,系统情况越差。简而言之,如果系统从故障中恢复所需的时间越长,系统的可用性就越低。以下公式说明MTBF 和MTTR 是如何影响系统的整体可用性的。随着MTBF 的增大,可用性也会提高。随着MTTR 的增大,可用性会下降。
方程式 2
可用性=
MTBF
(MTBF +MTTR )
要使上述方程式1和方程式2有效,在分析系统的MTBF 时,必须做一个基本的假设。与机械系统不同,大多数电子系统没有移动部件。因此,一般认为,电子系统或组件在有效期内会表现出稳定的故障率。图1(称为故障率“浴缸曲线”)说明前面提到的这个稳定故障率假设的来源。此曲线的“正常使用期”或“有效期”是产品在现场使用的阶段。在这个阶段,产品质量已经达到在一个稳定的故障率。此阶段的故障源可能包括无法检测的缺陷、较低的设计安全因素、高于预计的随机压力、人为因素和自然故障。如果制造商对组件进行充足的测试、适当的维护、提前更换损坏的部件,就可以避免出现“磨损期”中所示的这种快速衰退的曲线。上述讨论提供了可靠性和可用性的概念和区别的一些背景知识,可帮助人们正确理解MTBF 。下一节讨论各种MTBF 预测方法。
“预测”和“估计”这两个词经常混用,但这是不正确的。预测 MTBF的方法只根据系统设计计算值,通常在产品生命周期的早期使用。如果现场数据很少或没有(例如航天飞机或新的产品设计),预测方法就很有用。如果有大量的现场数据,就不应使用预测方法。而应使用估计 MTBF的方法,因为这种方法可以提供真实的故障评估结果。估计 MTBF的方法根据观察类似系统的抽样来计算值,通常在现场大量部署了产品后进行。到目前为止,估计MTBF 是计算MTBF 时使用最广泛的方法,其中的主要原因是这种方法基于在现场实际使用的真实产品。
这两种方法在本质上讲都是统计型的,这意味着提供的只是实际MTBF 的近似值。没有一种方法是适合于整个行业的标准化方法的。因此,制造商一定要了解并选择最适合指定应用的方法。下面列出的方法尽管并不完整,但是说明了可采用许多方法来计算MTBF 值。
预测和估计MTBF 的方法
可靠性预测方法
可靠性预测方法最早出现在大约20世纪40年代,由德国科学家Von Braun和德国数学家Eric Pieruschka 提出。Pieruschka 在努力改善V-1火箭的大量可靠性问题的同时,帮助Von Braun建立此火箭的可靠性模型,从而建立了第一个有据可查的现代化预测可靠性模型。之后,NASA 以及核工业的发展促进了可靠性分析领域的逐渐成熟。现在,已经有了许多预测MTBF 的方法。
MIL-HDBK 217
美国军方在1965年发布的军事手册217号中,为估计电子军事设备和系统的可靠性提供了标准,以便提高所设计设备的可靠性。这为比较两种或两种以上的类似设计的可靠性提供了一个共同的依据。军事手册217号也称为军事标准217号,或简称为217号。根据217号的规定,可以使用两种方法预测可靠性:部件数预测和部件压力分析预测。
部件计数预测通常用于在产品开发周期的早期预测产品的可靠性,以获得与可靠性目标或规范有关的粗略可靠性估计。计算故障率的方法是:精确统计产品的类似组件数(例如电容),然后将这些组件分为不同的组件类型(例如薄膜电容)。然后,将每个组中的组件数乘以一个通用的故障率和质量系数(在217号中提供)。最后,将所有不同部件组的故障率加在一起,即可得出最终的故障率。顾名思义,部件计数假设所有组件均成系列,并要求单独计算非系列组件的故障率。
部件压力分析预测通常在产品开发周期的后期使用,这时,实际电路和硬件的设计已经基本确定。与该方法将故障率加在一起的方式与部件计数方法类似。不过,在部件压力分析预测方法中,每个组件的故障率根据组件所承受的特定压力水平(例如湿度、温度、振动、电压)分别计算。为了向每个组件分配适当的压力水平,必须很好地记录和了解产品设计及其预期环境。部件压力方法得出的故障率通常比部件计数方法所得出的故障率要低。因为所需的分析水平不同,此方法与其它方法相比显得非常耗时。
现在,已很少使用军事手册217号。1996年,美国军方宣布停止使用MIL-HDBK-217(军事手册217号),因为“它已经变得不可靠,如果继续使用可能会得出错误的、具有误导性的可靠性预测”3。217号被弃用的原因很多,而且其中大多数原因都与一以下事实有关:即经过多年的改进,组件的可靠性大大提高,已经不再是产品故障的主因。217号中规定的故障率更加保守,要高于当今电子组件的故障率。如果透彻地研究当今电子产品中的故障,您会发现,故障很可能是因为误用(人为错误)、流程控制或产品设计造成的。
Telcordia
Telcordia 的可靠性预测模型从电信行业演变而成,多年来已经历了一系列的变迁。这个模型最初由Bellcore Communications Research建立,称为Bellcore ,用于估计电信设备的可靠性。尽管Bellcore 基于217号,但是其可靠性模型(方程式)在1985年进行了改变,以反映电信设备的现场经验。Bellcore 最新的版本是1997年12月发布的TR-332第6版。之后,在1997年
3
Cushing, M.、Krolewski, J.、Stadterman, T. 和Hum, B.,1996年,“美国军方提高可靠性标准的政策及
其影响”,有关组件、包装和制造技术的IEEE 学报,A 部分,第19卷,第2期,第277-278页。
,SAIC 收购了Bellcore ,并将其重命名为Telcordia 。Telcordia 预测模型的最新版本是2001年5月发布的SR-332第1版。除217号中的方法之外,它还提供了其他一些计算方法。时至今日,Telcordia 在此行业中仍作为产品设计工具使用。
HRD5
HRD5是电信系统中使用的电子组件可靠性数据手册。HRD5由British Telecom创作,主要在英国使用。
该手册与217号类似,但是没有提供那么多环境变量。不过,它所提供的可靠性预测模型适用于更广泛的
电子组件(包括电信)。
RBD (可靠性方块图)
RBD (即可靠性方块图)是具有代表性的图形和计算工具,用于为系统可用性和可靠性建模。可靠性方块图的结构定义了系统中各故障的逻辑交互作用,而不一定要定义各故障的的逻辑连接和物理连接。每个方块可以代表一个组件故障、子系统故障或其它具有代表性的故障。该方块图可以代表整个系统,也可以代表该系统中要求进行故障分析、可靠性分析或可用性分析的任何子集或组合。它还可用作分析工具,显示系统中每个元件是如何工作的,以及每个元件是如何影响整体系统运行的。
Markov 模型
使用Markov 模型可以分析电子体系结构之类的复杂系统。Markov 模型也称为状态空间图或状态图。状态空间的定义如下:系统所有可能的状态的集合。与方块图不同,状态图可以更加准确地代表系统。状态图有助
于理解组件故障的相关性以及方块图所无法表示的各种状态,例如电池供电的UPS 的状态。除了MTBF 之外,Markov 模型还提供了各种其他系统指标,包括可用性、MTTR 以及在指定时间处于指定状态的可能性,等等。
FMEA/FMECA
FMEA (故障模式和效果分析)过程用于分析产品的故障模式。然后,使用这些信息确定每个故障对产品的影响,从而改善产品的设计。分析过程还可以更进一步,即为每个故障模式分配一个严重程度,此时的分析被称为FMECA (故障模式、效果和严重程度分析)。FMEA 使用从下到上的方法。例如,如果是UPS ,从电路板级别的组件开始分析,逐渐分析到整个系统。它除了作为产品设计工具之外,还可以用于计算整体系统的可靠性。在计算时所需的各个设备组件的可能性数据可能很难获得,如果这些组件具有多种状态或运行模式则尤其如此。
故障树
故障树分析方法由Bell Telephone Laboratories开发,用于对Minuteman 发射控制系统进行安全评估。它后来又应用于可靠性分析。故障树有助于细分事件的路径,无论是普通事件还是与故障有关的事件,直到找出正在研究的组件级故障或意外事件(采用从上到下的方法)。计算可靠性的方法是:将完整的故障树转换为对应的一组方程式。转换过程使用事件代数学(又称布尔代数学)完成。与FMEA 类似,计算时所需的可能性数据很难获得。
HALT
超加速寿命测试 (HALT) 方法用于提高产品设计的整体可靠性。HALT 用于设置到达产品真实使用极限所需的时间,方法是使产品承受经过认真测量和控制的压力,例如温度和振动。数学模型用于估计使产品在现场出现故障所需的实际时间。尽管HALT 可以估计MTBF ,但是其主要作用是提高产品设计的可靠性。
可靠性估计方法
类似项预测方法
此方法可以根据类似项的已有可靠性数据快速估计可靠性。此方法是否有效主要取决于新设备与有现场数据的现有设备的类似程度。在制造流程、工作环境、产品功能和设计之间都应存在类似性。对于不断改进的产品,此预测方法尤其有效,因为它可以利用过去的现场经验。不过,在最终的预测中,应认真研究和考虑新设计中的不同之处。
现场数据评估方法
现场数据评估方法基于产品的现场实际使用情况。此方法可能是制造商使用最多的方法,因为它是质量控制程序中必不可少的一部分。这些程序通常称为“可靠性提高管理”。通过在现场跟踪产品的故障率,制造商可以快速发现并解决问题,从而消除产品的缺陷。因为是基于实际的现场故障,此方法考虑了预测方法有时会忽略的故障模式。此方法包括对抽样的新产品进行跟踪、收集故障数据。收集到数据后,计算故障率和MTBF 。故障率是指在某年中预计会出现“故障”的设备的百分比。这些数据除了用于质量控制之外,还用于为客户和合作伙伴提供产品可靠性和质量流程的有关信息。鉴于制造商如此广泛地使用此方法,所以,它为比较MTBF 值提供了一个共同的依据。通过比较,用户可以评估产品之间可靠性的相对差异,而这为人们制定规范或做出购买决策提供了依据。与任何比较一样,所有被比较系统的关键变量都必须相同。如果不同,可能资源链接
第112号白皮书
对数据中心基础设施执行有
效的 MTBF 比较
会做出错误的决策,从而对财务造成负面的影响。
MTBF 是IT 行业中常用的“术语”。全世界的人们都在使用MTBF 值,但是并不了解它们真正代表的含义。尽管MTBF 是一个可靠性指标,但是它并不代表产品预计的服务期。总之,如果故障的定义不够,假设不现实,或故障和假设都没有,MTBF 值就没有任何意义。
结论
资源
点击图标打开相应 参考资源链接
参考资料
对数据中心基础设施执行有效的 MTBF 比较
第112号白皮书 浏览所有 白皮书
whitepapers.apc.com
浏览所有TradeOff Tools 权衡工具
tools.apc.com
1. Pecht, M.G.、Nash, F.R.,“Predicting the Reliability of Electronic Equipment”,
IEEE 学报,
第82卷,第7期。1994年7
月
2. Leonard, C.,“MIL-HDBK-217: It’s Time To Rethink It”,Electronic Design,1991
年10月24日
3.
4. MIL-HDBK-338B ,Electronic Reliability Design Handbook,1998年10月1日
5. IEEE 90 — 电气和电子工程师协会,IEEE 标准计算机字典:IEEE 标准计算机词汇汇编。
纽约, NY: 1990
平均故障间隔时间:
说明和标准
第78号白皮书
版本 1
作者 Wendy Torell 和 Victor Avelar
白皮书现收录于施耐德电气白皮书资料库 目录
点击内容即可跳转至具体章节
简介
2什么是故障?什么是假设? 2定义的可靠性、可用性、MTBF 3
和MTTR
预测和估计MTBF 的方法 5结论 8资源 9
简介
什么是故障?什
平均故障间隔时间 (MTBF) 已经作为一种决策依据使用了60多年。随着时间的推移,已经出现了20多种预测生命周期的方法和程序。因此,MTBF 一直是一个争论不休的话题,这也就不足为奇了。有一个领域这种情况尤为明显,那就是设计放置IT 和电信设备的任务关键设施。如果短时间的停机也可能会对业务的市场价值产生负面影响,那么,支持这个网络环境的物理基础设施就一定要可靠。如果没有透彻地了解MTBF ,可能就无法实现业务可靠性目标。本白皮书通篇使用示例来说明MTBF 的方方面面,旨在化繁为简、澄清误解。
在评估任何MTBF 值时,都应首先问这两个问题。如果不回答这两个问题,讨论将毫无意义。人么是假设?
们在提到MTBF 时经常不提供对故障的定义。这种做法不仅仅会误导,而且是毫无意义的。这就有点像人们在宣传汽车的节油性时使用“每箱油行驶的英里数”这个指标,但同时却不提供油箱的容积(公升或加仑)。为了消除这种不确定性,应该表明故障有两种基本定义:
1. 产品整体失效,无法实现其所应实现的功能。1
2. 个别组件失效,无法实现其应实现的功能,但不是产品整体失效,无法实现该产品应实现
的功能。2
以下两个示例说明产品中的特定故障模式也许属于故障,也许不属于故障,具体将取决于所选的故障定义。
示例1:
如果RAID 阵列中的某个冗余磁盘出现故障,该故障不会妨碍RAID 阵列实现其应实现的功能,即随时提供关键数据。不过,该磁盘故障会妨碍磁盘阵列中的某个组件实现其应实现的功能,即提供存储容量。因此,根据定义1,这种情况不属于故障,但是根据定义2,这种情况属于故障。
示例2:
如果UPS 的逆变器出现故障,UPS 切换到静态旁路,该故障不会妨碍UPS 实现其应实现的功能,即为关键负载供电。不过,该逆变器故障会妨碍UPS 的某个组件实现其应实现的功能,即提供调节电压功能。与上一个示例类似,只有根据第2个定义,这种情况才属于故障。
如果只有两个定义,定义故障看起来也很简单。但是,如果产品正面临信誉危机,问题就和
MTBF 本身一样复杂了。实际上,故障定义不只两种,而是有无数种。根据产品类型,制造商可能有许多故障定义。质量至上的制造商会跟踪所有故障模式,以便控制工艺流程。这样做的一个好处是可以消除产品缺陷。因此,需要更多问题来准确地定义故障。
客户的误用是否属于故障?设计者可能忽视了许多人为因素,这将导致用户很容易误用产品。供应商的维修技术人员造成的负载停用是否属于故障?产品设计本身是否会提高风险程序出现故障的可能性?如果计算机上的LED (发光二级管)出现故障,是否属于故障(虽然它没有影响计算机的运行)?如果耗材(例如电池)的使用期比预期的时间要短,是否属于故障?运输造成的损坏是否属于故障?这可能表明包装的设计不当。很明显,定义故障非常重要。必须了解故障的定义,才能解释任何MTBF 值。上述问题以及其他类似问题是人们做出可靠决策的前提。
有种说法是工程师从不会犯错;他们只是做出了不当的假设。同样说法也适用于估计MTBF 值的人。需要通过假设来简化估计MTBF 的流程。收集计算准确数字所需的数据几乎是不可能的。不过,所有假设必须是基于实际情况。在整个白皮书中,对估计MTBF 时所使用的常见假设都进行了说明。
1 IEC-50 2
IEC-50
MTBF 既影响可靠性,也影响可用性。要理解MTBF 方法,一定要先透彻地了解这两个概念。可靠性和可用性之间的区别通常不为人知或被人曲解。高可用性和高可靠性通常是相辅相成的,但是这两个术语不可以互换。
可靠性是指系统或组件在规定的条件下按照指定的时间实现其应实现功能的能力 [IEEE 90]。
换句话说,就是系统或组件在规定的任务时间内无故障运行的可能性。飞行任务就是说明这个概念非常好的
示例,飞机起飞以完成任务时,会记住一个目标:按照计划安全地完成飞行(没有灾难性故障)。
可用性则是指系统或组件在需要使用时正常使用的可能性 [IEEE 90]。
可以将可用性看作是系统或组件在指定条件下、在指定的时间内可以实现应实现功能的可能性。可用性由系统的可靠性以及发生故障后的恢复时间决定。如果系统长时间连续运行(例如持续运行10年的数据中心),故障是不可避免的。人们经常会考虑可用性,因为如果真的发生故障,那么关键的一点就是如何快速地恢复系统。在上面的数据中心示例中,采用可靠的系统设计是最关键的因素。但是如果发生故障,最重要的一点就是让IT 设备和业务流程尽快恢复正常,使停机时间最短。
MTBF (即平均故障间隔时间)是系统可靠性的一个基本指标。它通常用小时数作为单位。MTBF 值越大,产品的可靠性越高。方程式1说明了这种关系。
方程式 1
定义的可靠性、可用性、MTBF 和MTTR
可靠性=e
⎛时间⎞−⎜⎟⎝MTBF ⎠
对MTBF 的常见曲解是认为MTBF 等同于系统出现故障之前预计的工作小时数(即“服务期”)。不过,虽然人们有时会看到MTBF 值在100万小时这个级别,但是认为系统真正可以持续无故障运行100年是不现实的。这些数字经常如此高的原因在于,它们是根据仍处于“有效期”或“正常使用期”的产品的故障率计算得出的,而且计算时假设产品的故障率永远保持在这个水平。而在产品生命周期的这个阶段,产品的故障率是最低的(并且保持不变)。实际上,产品的各种磨损方式会使其生命周期远早于MTBF 值结束。因此,不应在产品的服务期与其故障率或MTBF 之间建立任何直接的关系。有的产品具有非常高的可靠性 (MTBF),但是预计服务期很短,这是完全有可能的。以人为例:
以 50 万个 25 岁的人作为抽样。
在一年的时间内,收集这些人口的“故障”(死亡)数据。 这些人口的生活时间是 500000 1 年 = 50 万人年。 在这一年当中,有 625 个人“出现故障”(去世)。 故障率为 625 个故障/50 万人年 = 0.125%/年。 MTBF 是故障率的倒数,即 1/0.00125 = 800 年。
所以,尽管 25 岁的人 MTBF 值较高,预期寿命(服务期)却短得多,因此这两者之间没有任何关系。
实际上,人不会表现出稳定的“故障率”。随着人逐渐变老,会出现更多的“故障”(官能老化)。因此,要计算等同于服务期的MTBF ,唯一可行的方法是等待所抽样的25岁人群全部死亡。然后,可以计算他们的平均寿命。大多数人会同意这个数字应该在75-80岁这个级别。
所以,25岁人的MTBF 是多少?80还是800?都对!但是,同样的人群怎么会得到两个截然不同的MTBF 值呢?这都是由于计算时所基于的假设造成的!
图1
说明稳定故障率的浴缸曲线
平均故障间隔时间:说明和标准
如果MTBF 为80年可以更加准确地反映产品的寿命(在此例中是人),这是更好的方法吗?很明显,这种方法更加符合直觉。不过,有许多可变因素会限制对某些商业产品(例如UPS 系统)使用这种方法。最大的限制就是时间。要做到这一点,抽样人口必须全部死亡。对于许多产品,这个时间在10-15年这一级别。另外,即使可以等待这段时间后再计算MTBF ,在跟踪产品的过程中仍会遇到问题。例如,制造商如何了解产品是否仍在使用,如果他们已经不使用并且没有报告呢?
最后,即使上述所有情况都可能实现,但技术的变化如此之快,到了可以计算出这个数字的时候,这个数字也没有任何意义了。谁还想知道已被数次技术更新而淘汰的产品的MTBF 值呢?
MTTR (即平均修复时间或平均恢复时间)是预计系统从故障中恢复的时间。这可能包括诊断问题的时间、维修技术人员到位的时间以及实际维修系统的时间。与MTBF 类似,MTTR 使用的单位也是小时数。正如方程式2所示,MTTR 影响可用性,但不影响可靠性。MTTR 越长,系统情况越差。简而言之,如果系统从故障中恢复所需的时间越长,系统的可用性就越低。以下公式说明MTBF 和MTTR 是如何影响系统的整体可用性的。随着MTBF 的增大,可用性也会提高。随着MTTR 的增大,可用性会下降。
方程式 2
可用性=
MTBF
(MTBF +MTTR )
要使上述方程式1和方程式2有效,在分析系统的MTBF 时,必须做一个基本的假设。与机械系统不同,大多数电子系统没有移动部件。因此,一般认为,电子系统或组件在有效期内会表现出稳定的故障率。图1(称为故障率“浴缸曲线”)说明前面提到的这个稳定故障率假设的来源。此曲线的“正常使用期”或“有效期”是产品在现场使用的阶段。在这个阶段,产品质量已经达到在一个稳定的故障率。此阶段的故障源可能包括无法检测的缺陷、较低的设计安全因素、高于预计的随机压力、人为因素和自然故障。如果制造商对组件进行充足的测试、适当的维护、提前更换损坏的部件,就可以避免出现“磨损期”中所示的这种快速衰退的曲线。上述讨论提供了可靠性和可用性的概念和区别的一些背景知识,可帮助人们正确理解MTBF 。下一节讨论各种MTBF 预测方法。
“预测”和“估计”这两个词经常混用,但这是不正确的。预测 MTBF的方法只根据系统设计计算值,通常在产品生命周期的早期使用。如果现场数据很少或没有(例如航天飞机或新的产品设计),预测方法就很有用。如果有大量的现场数据,就不应使用预测方法。而应使用估计 MTBF的方法,因为这种方法可以提供真实的故障评估结果。估计 MTBF的方法根据观察类似系统的抽样来计算值,通常在现场大量部署了产品后进行。到目前为止,估计MTBF 是计算MTBF 时使用最广泛的方法,其中的主要原因是这种方法基于在现场实际使用的真实产品。
这两种方法在本质上讲都是统计型的,这意味着提供的只是实际MTBF 的近似值。没有一种方法是适合于整个行业的标准化方法的。因此,制造商一定要了解并选择最适合指定应用的方法。下面列出的方法尽管并不完整,但是说明了可采用许多方法来计算MTBF 值。
预测和估计MTBF 的方法
可靠性预测方法
可靠性预测方法最早出现在大约20世纪40年代,由德国科学家Von Braun和德国数学家Eric Pieruschka 提出。Pieruschka 在努力改善V-1火箭的大量可靠性问题的同时,帮助Von Braun建立此火箭的可靠性模型,从而建立了第一个有据可查的现代化预测可靠性模型。之后,NASA 以及核工业的发展促进了可靠性分析领域的逐渐成熟。现在,已经有了许多预测MTBF 的方法。
MIL-HDBK 217
美国军方在1965年发布的军事手册217号中,为估计电子军事设备和系统的可靠性提供了标准,以便提高所设计设备的可靠性。这为比较两种或两种以上的类似设计的可靠性提供了一个共同的依据。军事手册217号也称为军事标准217号,或简称为217号。根据217号的规定,可以使用两种方法预测可靠性:部件数预测和部件压力分析预测。
部件计数预测通常用于在产品开发周期的早期预测产品的可靠性,以获得与可靠性目标或规范有关的粗略可靠性估计。计算故障率的方法是:精确统计产品的类似组件数(例如电容),然后将这些组件分为不同的组件类型(例如薄膜电容)。然后,将每个组中的组件数乘以一个通用的故障率和质量系数(在217号中提供)。最后,将所有不同部件组的故障率加在一起,即可得出最终的故障率。顾名思义,部件计数假设所有组件均成系列,并要求单独计算非系列组件的故障率。
部件压力分析预测通常在产品开发周期的后期使用,这时,实际电路和硬件的设计已经基本确定。与该方法将故障率加在一起的方式与部件计数方法类似。不过,在部件压力分析预测方法中,每个组件的故障率根据组件所承受的特定压力水平(例如湿度、温度、振动、电压)分别计算。为了向每个组件分配适当的压力水平,必须很好地记录和了解产品设计及其预期环境。部件压力方法得出的故障率通常比部件计数方法所得出的故障率要低。因为所需的分析水平不同,此方法与其它方法相比显得非常耗时。
现在,已很少使用军事手册217号。1996年,美国军方宣布停止使用MIL-HDBK-217(军事手册217号),因为“它已经变得不可靠,如果继续使用可能会得出错误的、具有误导性的可靠性预测”3。217号被弃用的原因很多,而且其中大多数原因都与一以下事实有关:即经过多年的改进,组件的可靠性大大提高,已经不再是产品故障的主因。217号中规定的故障率更加保守,要高于当今电子组件的故障率。如果透彻地研究当今电子产品中的故障,您会发现,故障很可能是因为误用(人为错误)、流程控制或产品设计造成的。
Telcordia
Telcordia 的可靠性预测模型从电信行业演变而成,多年来已经历了一系列的变迁。这个模型最初由Bellcore Communications Research建立,称为Bellcore ,用于估计电信设备的可靠性。尽管Bellcore 基于217号,但是其可靠性模型(方程式)在1985年进行了改变,以反映电信设备的现场经验。Bellcore 最新的版本是1997年12月发布的TR-332第6版。之后,在1997年
3
Cushing, M.、Krolewski, J.、Stadterman, T. 和Hum, B.,1996年,“美国军方提高可靠性标准的政策及
其影响”,有关组件、包装和制造技术的IEEE 学报,A 部分,第19卷,第2期,第277-278页。
,SAIC 收购了Bellcore ,并将其重命名为Telcordia 。Telcordia 预测模型的最新版本是2001年5月发布的SR-332第1版。除217号中的方法之外,它还提供了其他一些计算方法。时至今日,Telcordia 在此行业中仍作为产品设计工具使用。
HRD5
HRD5是电信系统中使用的电子组件可靠性数据手册。HRD5由British Telecom创作,主要在英国使用。
该手册与217号类似,但是没有提供那么多环境变量。不过,它所提供的可靠性预测模型适用于更广泛的
电子组件(包括电信)。
RBD (可靠性方块图)
RBD (即可靠性方块图)是具有代表性的图形和计算工具,用于为系统可用性和可靠性建模。可靠性方块图的结构定义了系统中各故障的逻辑交互作用,而不一定要定义各故障的的逻辑连接和物理连接。每个方块可以代表一个组件故障、子系统故障或其它具有代表性的故障。该方块图可以代表整个系统,也可以代表该系统中要求进行故障分析、可靠性分析或可用性分析的任何子集或组合。它还可用作分析工具,显示系统中每个元件是如何工作的,以及每个元件是如何影响整体系统运行的。
Markov 模型
使用Markov 模型可以分析电子体系结构之类的复杂系统。Markov 模型也称为状态空间图或状态图。状态空间的定义如下:系统所有可能的状态的集合。与方块图不同,状态图可以更加准确地代表系统。状态图有助
于理解组件故障的相关性以及方块图所无法表示的各种状态,例如电池供电的UPS 的状态。除了MTBF 之外,Markov 模型还提供了各种其他系统指标,包括可用性、MTTR 以及在指定时间处于指定状态的可能性,等等。
FMEA/FMECA
FMEA (故障模式和效果分析)过程用于分析产品的故障模式。然后,使用这些信息确定每个故障对产品的影响,从而改善产品的设计。分析过程还可以更进一步,即为每个故障模式分配一个严重程度,此时的分析被称为FMECA (故障模式、效果和严重程度分析)。FMEA 使用从下到上的方法。例如,如果是UPS ,从电路板级别的组件开始分析,逐渐分析到整个系统。它除了作为产品设计工具之外,还可以用于计算整体系统的可靠性。在计算时所需的各个设备组件的可能性数据可能很难获得,如果这些组件具有多种状态或运行模式则尤其如此。
故障树
故障树分析方法由Bell Telephone Laboratories开发,用于对Minuteman 发射控制系统进行安全评估。它后来又应用于可靠性分析。故障树有助于细分事件的路径,无论是普通事件还是与故障有关的事件,直到找出正在研究的组件级故障或意外事件(采用从上到下的方法)。计算可靠性的方法是:将完整的故障树转换为对应的一组方程式。转换过程使用事件代数学(又称布尔代数学)完成。与FMEA 类似,计算时所需的可能性数据很难获得。
HALT
超加速寿命测试 (HALT) 方法用于提高产品设计的整体可靠性。HALT 用于设置到达产品真实使用极限所需的时间,方法是使产品承受经过认真测量和控制的压力,例如温度和振动。数学模型用于估计使产品在现场出现故障所需的实际时间。尽管HALT 可以估计MTBF ,但是其主要作用是提高产品设计的可靠性。
可靠性估计方法
类似项预测方法
此方法可以根据类似项的已有可靠性数据快速估计可靠性。此方法是否有效主要取决于新设备与有现场数据的现有设备的类似程度。在制造流程、工作环境、产品功能和设计之间都应存在类似性。对于不断改进的产品,此预测方法尤其有效,因为它可以利用过去的现场经验。不过,在最终的预测中,应认真研究和考虑新设计中的不同之处。
现场数据评估方法
现场数据评估方法基于产品的现场实际使用情况。此方法可能是制造商使用最多的方法,因为它是质量控制程序中必不可少的一部分。这些程序通常称为“可靠性提高管理”。通过在现场跟踪产品的故障率,制造商可以快速发现并解决问题,从而消除产品的缺陷。因为是基于实际的现场故障,此方法考虑了预测方法有时会忽略的故障模式。此方法包括对抽样的新产品进行跟踪、收集故障数据。收集到数据后,计算故障率和MTBF 。故障率是指在某年中预计会出现“故障”的设备的百分比。这些数据除了用于质量控制之外,还用于为客户和合作伙伴提供产品可靠性和质量流程的有关信息。鉴于制造商如此广泛地使用此方法,所以,它为比较MTBF 值提供了一个共同的依据。通过比较,用户可以评估产品之间可靠性的相对差异,而这为人们制定规范或做出购买决策提供了依据。与任何比较一样,所有被比较系统的关键变量都必须相同。如果不同,可能资源链接
第112号白皮书
对数据中心基础设施执行有
效的 MTBF 比较
会做出错误的决策,从而对财务造成负面的影响。
MTBF 是IT 行业中常用的“术语”。全世界的人们都在使用MTBF 值,但是并不了解它们真正代表的含义。尽管MTBF 是一个可靠性指标,但是它并不代表产品预计的服务期。总之,如果故障的定义不够,假设不现实,或故障和假设都没有,MTBF 值就没有任何意义。
结论
资源
点击图标打开相应 参考资源链接
参考资料
对数据中心基础设施执行有效的 MTBF 比较
第112号白皮书 浏览所有 白皮书
whitepapers.apc.com
浏览所有TradeOff Tools 权衡工具
tools.apc.com
1. Pecht, M.G.、Nash, F.R.,“Predicting the Reliability of Electronic Equipment”,
IEEE 学报,
第82卷,第7期。1994年7
月
2. Leonard, C.,“MIL-HDBK-217: It’s Time To Rethink It”,Electronic Design,1991
年10月24日
3.
4. MIL-HDBK-338B ,Electronic Reliability Design Handbook,1998年10月1日
5. IEEE 90 — 电气和电子工程师协会,IEEE 标准计算机字典:IEEE 标准计算机词汇汇编。
纽约, NY: 1990