SLO与SLI:软件可靠性实践指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

可靠性是一种对话。

这是我们在尝试操作基础设施、系统和服务时所进行的对话。这是我们与复杂性、安全性、可扩展性和速度的对话,希望它们能以我们需要的方式出现。这是我们与道德、隐私和正义的对话,试图为依赖我们的人做正确的事情。这也是我们与同事进行的对话,这样我们就可以共同努力构建重要的东西。

如果说现在世界上需要什么的话,那就是更好的对话。这并不容易。

这就是SLI(服务等级指标)和SLO(服务等级目标)出现的原因。对我们来说,它们提供了一种工具、一种实践、一种模型,不过为了更好地与可靠性对话,你叫它什么都行。对话把人放在第一位。SLI和SLO可以帮助我们以一种新的方式思考、交流,以一种新的方式与可靠性交互。它们并不是David Mamet式戏剧的演员剧本,告诉我们该说什么,在哪里说,在哪里暂停。我很确定如果它们是这样的话,这一定不是我们想要的。

相反,SLI和SLO会在我们需要的时候提供指导。“嗯,如果你这么做而不是那么做,你的用户的延迟可能会好一点。”“你确定要部署一个新版本吗?”“哦,这对我们的用户来说很重要,也许我们最好开始关注这个问题……”,并且鉴于前面提到的我们进行的所有不同对话,这个指导是很有价值的。

如果我们玩旧的“好消息/坏消息”游戏,坏消息就是,关于可靠性的讨论有时会很困难,关于可靠性的对话可能没有我们希望的那么简单。SLI和SLO在理论上可能很简单,但在实践中并不总是那么简单。

另一个令人沮丧的消息是,正如可靠性对话(至少是好的对话)永远不会结束一样,SLI和SLO也是如此。它们远没有结束。正如Rilke所说:“现在就面对问题吧。”

好消息是你现在有了这本书。Alex和其他贡献者已经解决了一些问题,他们准备与你分享他们所学到的知识。这可以帮助你挖掘所需要的知识,并从SLI和SLO所提供的知识中获取最大价值。

我不想占用你太多时间,以免影响你阅读本书下面的内容,但我最后想说:

“亲爱的读者,请使用本书中的所有建议(以及你遇到的任何其他工具)来进行更好的对话。我就指望你了。”

——David N. Blank-Edelman,Seeking SRE的策展人/编辑SREcon的联合创始人