更新时间:2019-08-29 18:48:02
封面
版权信息
内容简介
O'Reilly Media Inc.介绍
赞誉
译者序
前言
序言
第Ⅰ部分 概览
第1章 介绍
系统管理员模式
Google的解决之道:SRE
SRE方法论
小结
第2章 Google 生产环境:SRE视角
硬件
管理物理服务器的系统管理软件
其他系统软件
软件基础设施
研发环境
莎士比亚搜索:一个示范服务
第Ⅱ部分 指导思想
第3章 拥抱风险
管理风险
度量服务的风险
服务的风险容忍度
使用错误预算的目的
第4章 服务质量目标
服务质量术语
指标在实践中的应用
目标在实践中的应用
协议在实践中的应用
第5章 减少琐事
琐事的定义
为什么琐事越少越好
什么算作工程工作
琐事繁多是不是一定不好
第6章 分布式系统的监控
术语定义
为什么要监控
对监控系统设置合理预期
现象与原因
黑盒监控与白盒监控
4个黄金指标
关于长尾问题
度量指标时采用合适的精度
简化,直到不能再简化
将上述理念整合起来
监控系统的长期维护
第7章 Google 的自动化系统的演进
自动化的价值
自动化对Google SRE的价值
自动化的应用案例
让自己脱离工作:自动化所有的东西
舒缓疼痛:将自动化应用到集群上线中
Borg:仓库规模计算机的诞生
可靠性是最基本的功能
建议
第8章 发布工程
发布工程师的角色
发布工程哲学
持续构建与部署
配置管理
第9章 简单化
系统的稳定性与灵活性
乏味是一种美德
我绝对不放弃我的代码
“负代码行”作为一个指标
最小 API
模块化
发布的简单化
第Ⅲ部分 具体实践
第10章 基于时间序列数据进行有效报警
Borgmon的起源
应用软件的监控埋点
监控指标的收集
时间序列数据的存储
Borg规则计算
报警
监控系统的分片机制
黑盒监控
配置文件的维护
十年之后
第11章 on-call轮值
介绍
on-call工程师的一天
on-call工作平衡
安全感
避免运维压力过大
第12章 有效的故障排查手段
理论
实践
神奇的负面结果
案例分析
使故障排查更简单