1.1.2 相关指标_PostgreSQL高可用实战-QQ阅读男生玄幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.1.2 相关指标

1.RTO指标

恢复时间目标（Recovery Time Objective，RTO）指在故障或灾难发生后，硬件设备或软件服务停止工作的最大可承受时间。RTO 定义了最大容忍时限，必须在此时限内恢复数据。如果说系统需要在灾难发生后的24h内恢复，那么RTO就是24h。RTO也是从故障发生后，系统宕机导致业务中断的那一刻开始，到系统恢复至可以支持各业务正常运作的时间间隔。RTO 是反映系统业务恢复时间的指标，RTO 数值越小，代表容灾系统的数据恢复能力越强。

2.RPO指标

恢复点目标（Recovery Point Object，RPO）是一个过去的时间点，即当灾难或紧急事件发生时，数据可以恢复到的时间点。例如，每天03：00进行数据备份，如果今天发生了宕机，那么数据可以恢复到的时间点（RPO）就是今天 03：00；如果 05：00 发生了灾难或宕机事件，那么损失的就是 2h 内所产生的数据。RPO 指的是用户允许损失的最大数据量。RPO指标主要反映了业务连续性管理体系下备用数据的有效性，即RPO取值越小，表示系统对数据完整性的保证能力越强。

3.SLA服务等级

服务等级协议（Service Level Agreement，SLA）指提供服务的企业与客户之间就服务的品质、水准、性能等方面达成的双方共同认可的协议。

不同公司的不同业务类型对服务等级的要求也不一样，金融类型和互联网类型业务对服务等级的要求较高，其他类型业务，比如统计分析、离线分析等非实时业务系统，对服务等级的要求比金融类型和互联网类型业务低。

服务可用性越低，停机时间越长，可能造成的损失也越大。在IT系统建设过程中，要尽可能地提升SLA服务等级，如表1-1所示。

表1-1 SLA服务等级

续表

4.MTTF、MTTR和MTBF指标

1）MTTF指标

平均无故障时间（Mean Time To Failure，MTTF）指系统无故障运行的平均时间，取所有从系统开始正常运行到发生故障之间的时间段的平均值。

2）MTTR指标

平均修复时间（Mean Time To Repair，MTTR）指系统从发生故障到维修结束之间的时间段的平均值。

3）MTBF指标

平均失效间隔（Mean Time Between Failure，MTBF）指系统发生两次故障时间之间的时间段的平均值。