MTBF,即平均故障间隔时间,英文全称是"Mean Time Between Failure"。
是衡量一个产品(尤其是电器产品)的可靠性指标。
单位为"小时"。
它反映了产品的时间质量,是体现产品在规定时间内保持功能的一种能力。
具体来说,是指相邻两次故障之间的平均工作时间,也称为平均故障间隔。
概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫"故障率"(Failure rate)。
它仅适用于可维修产品。
同时也规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。
磁盘阵列产品一般MTBF不能低于50000小时。
计算方法
失效时间是指上一次设备恢复正常状态(图中的up time)起,到设备此次失效那一刻(图中的down time)之间间隔的时间。
MTBF值是产品设计时要考虑的重要参数,可靠度工程师或设计师经常使用各种不同的方法与标准来估计产品的MTBF值。
相关标准包括MIL-HDBK-217F、Telcordia SR332、Siemens Norm、Fides或UTE C 80-810(RDF2000)等。
不过这些方法估计到的值和实际的平均故障间隔仍有相当的差距。
计算平均故障间隔的目的是为了找出设计中的薄弱环节。
故障时间
随着服务器的广泛应用,对服务器的可靠性提出了更高的要求。
所谓"可靠性",就是产品在规定条件下和规定时间内完成规定功能的能力;反之,产品或其一部分不能或将不能完成规定的功能是出故障。
概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫"故障率"(Failure rate),常用λ表示。
例如正在运行中的100只硬盘,一年之内出了2次故障,则每个硬盘的故障率为0.02次/年。
当产品的寿命服从指数分布时,其故障率的倒数就叫做平均故障间隔时间(Mean Time Between Failures),简称MTBF。
即:
MTBF=1/λ
笔者看到一款可用于服务器的WD Caviar RE2 7200 RPM 硬盘,MTBF 高达 120万小时,保修 5年。
120万小时约为137年,并不是说该种硬盘每只均能工作137年不出故障。
由MTBF=1/λ可知λ=1/MTBF=1/137年,即该硬盘的平均年故障率约为0.7%,一年内,平均1000只硬盘有7只会出故障。
下图所示为著的浴盆曲线,左边斜线部分为早期故障率,其故障率一般较高且随着时间推移很快下降。
曲线中部为使用寿命期,其故障率一般很低且基本固定。
右部为耗损期,失效率急速升高。
电子产品制造商一般通过测试、老炼、筛选等手段将早期故障尽量剔除,然后提供给客户使用。
当使用寿命期将尽,产品也即将进入故障高发期,需要报废或更新换代了。