PostgreSQL高可用实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.2 相关指标

1.RTO指标

恢复时间目标(Recovery Time Objective,RTO)指在故障或灾难发生后,硬件设备或软件服务停止工作的最大可承受时间。RTO 定义了最大容忍时限,必须在此时限内恢复数据。如果说系统需要在灾难发生后的24h内恢复,那么RTO就是24h。RTO也是从故障发生后,系统宕机导致业务中断的那一刻开始,到系统恢复至可以支持各业务正常运作的时间间隔。RTO 是反映系统业务恢复时间的指标,RTO 数值越小,代表容灾系统的数据恢复能力越强。

2.RPO指标

恢复点目标(Recovery Point Object,RPO)是一个过去的时间点,即当灾难或紧急事件发生时,数据可以恢复到的时间点。例如,每天03:00进行数据备份,如果今天发生了宕机,那么数据可以恢复到的时间点(RPO)就是今天 03:00;如果 05:00 发生了灾难或宕机事件,那么损失的就是 2h 内所产生的数据。RPO 指的是用户允许损失的最大数据量。RPO指标主要反映了业务连续性管理体系下备用数据的有效性,即RPO取值越小,表示系统对数据完整性的保证能力越强。

3.SLA服务等级

服务等级协议(Service Level Agreement,SLA)指提供服务的企业与客户之间就服务的品质、水准、性能等方面达成的双方共同认可的协议。

不同公司的不同业务类型对服务等级的要求也不一样,金融类型和互联网类型业务对服务等级的要求较高,其他类型业务,比如统计分析、离线分析等非实时业务系统,对服务等级的要求比金融类型和互联网类型业务低。

服务可用性越低,停机时间越长,可能造成的损失也越大。在IT系统建设过程中,要尽可能地提升SLA服务等级,如表1-1所示。

表1-1 SLA服务等级

续表

4.MTTF、MTTR和MTBF指标

1)MTTF指标

平均无故障时间(Mean Time To Failure,MTTF)指系统无故障运行的平均时间,取所有从系统开始正常运行到发生故障之间的时间段的平均值。

2)MTTR指标

平均修复时间(Mean Time To Repair,MTTR)指系统从发生故障到维修结束之间的时间段的平均值。

3)MTBF指标

平均失效间隔(Mean Time Between Failure,MTBF)指系统发生两次故障时间之间的时间段的平均值。