SRE：Google运维解密

(美)贝特西·拜尔等

更新时间：2019-08-29 18:48:02

最新章节：封面介绍

封面

版权信息

内容简介

O'Reilly Media Inc.介绍

赞誉

译者序

前言

序言

第Ⅰ部分概览

第1章介绍

系统管理员模式

Google的解决之道：SRE

SRE方法论

小结

第2章 Google 生产环境：SRE视角

硬件

管理物理服务器的系统管理软件

其他系统软件

软件基础设施

研发环境

莎士比亚搜索：一个示范服务

第Ⅱ部分指导思想

第3章拥抱风险

管理风险

度量服务的风险

服务的风险容忍度

使用错误预算的目的

第4章服务质量目标

服务质量术语

指标在实践中的应用

目标在实践中的应用

协议在实践中的应用

第5章减少琐事

琐事的定义

为什么琐事越少越好

什么算作工程工作

琐事繁多是不是一定不好

小结

第6章分布式系统的监控

术语定义

为什么要监控

对监控系统设置合理预期

现象与原因

黑盒监控与白盒监控

4个黄金指标

关于长尾问题

度量指标时采用合适的精度

简化，直到不能再简化

将上述理念整合起来

监控系统的长期维护

小结

第7章 Google 的自动化系统的演进

自动化的价值

自动化对Google SRE的价值

自动化的应用案例

让自己脱离工作：自动化所有的东西

舒缓疼痛：将自动化应用到集群上线中

Borg：仓库规模计算机的诞生

可靠性是最基本的功能

建议

第8章发布工程

发布工程师的角色

发布工程哲学

持续构建与部署

配置管理

小结

第9章简单化

系统的稳定性与灵活性

乏味是一种美德

我绝对不放弃我的代码

“负代码行”作为一个指标

最小 API

模块化

发布的简单化

小结

第Ⅲ部分具体实践

第10章基于时间序列数据进行有效报警

Borgmon的起源

应用软件的监控埋点

监控指标的收集

时间序列数据的存储

Borg规则计算

报警

监控系统的分片机制

黑盒监控

配置文件的维护

十年之后

第11章 on-call轮值

介绍

on-call工程师的一天

on-call工作平衡

安全感

避免运维压力过大

小结

第12章有效的故障排查手段

理论

实践

神奇的负面结果

案例分析

使故障排查更简单