SRE:Google运维解密
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

现象与原因

监控系统应该解决两个问题:什么东西出故障了,以及为什么出故障。

“什么东西出故障了”即为现象(symptom):“为什么”则代表了原因(可能只是中间原因,并不是根源问题)。表6-1列出了一些现象,以及它们对应的原因。

表6-1:现象与原因的示例

“现象”和“原因”的区分是构建信噪比高的监控系统时最重要的概念。