更新时间:2024-05-24 18:19:55
封面
版权信息
作者简介
内容简介
专家力荐
序
前言
开端篇 弱化边界感
第1章 引言
1.1 运维架构和SRE
1.2 理解业务,技术为业务服务
1.3 不设边界
1.4 SRE金字塔
1.5 总结
第2章 重视测试环境和预发布环境
2.1 提效和维稳的第一道门槛——测试环境
2.1.1 低级错误
2.1.2 提效分析
2.2 “守门员”——预发布环境
2.2.1 低级错误
2.2.2 提效分析
2.3 两大环境问题根本原因溯源
2.4 微拍堂测试环境治理思路介绍
2.5 总结
监控篇 底层逻辑的艺术
第3章 浅谈监控系统设计
3.1 梳理监控体系
3.2 梳理监控指标
3.3 变更监控
3.4 准实时系统监控
3.5 短时进程追踪工具
3.6 全链路监控
3.7 商业监控平台的选用建议
3.8 监控方式:白盒监控与黑盒监控
3.9 从监控数据中总结规律
3.10 黄金指标
3.11 总结
第4章 云原生可观测性开源工具——Kindling
4.1 行业现状
4.2 Kindling解决方案——关联内核可观测性数据的Trace
4.3 Kindling探针的架构设计理念
4.4 Kindling探针架构
4.4.1 内核态程序:drivers
4.4.2 用户态C/C++程序:kindling-probe
4.4.3 用户态Go程序:kindling-collector
4.4.4 程序间通信方式
4.5 在线Demo介绍
4.6 案例分享
4.6.1 安装
4.6.2 功能介绍
4.6.3 稳定性价值
4.7 总结
第5章 高阶实战——打造可持续维护的闭环流程
5.1 案例:动态观测SQL质量流程设计
5.1.1 分析规范难以落地的原因
5.1.2 监督与管控流程设计
5.1.3 通知和统计
5.2 案例:WebP格式图片的规范和落地实践
5.2.1 规范无法持续推广
5.2.2 成本和用户体验上的双赢
5.2.3 计划实施
5.2.4 管控机制
5.2.5 采集数据信息和数据加工处理
5.2.6 巡检平台之规范化监督
5.3 案例:管道通信规范化实践
5.3.1 我们每天都在使用管道
5.3.2 管道示例场景及性能说明
5.3.3 如何规范管道使用场景
5.4 标准和规范治理平台
5.4.1 现状
5.4.2 设计思路
5.5 总结
第6章 挖掘Nginx的监控价值
6.1 URI指纹服务设计
6.2 Nginx日志分析指南
6.2.1 参数白名单
6.2.2 URI的响应时间和HTTP状态监控
6.2.3 URI响应字节数波动分析
6.2.4 查询URL请求的项目
6.2.5 注意HTTPS的透传
6.2.6 利用Nginx完成动态全链路比例调整
6.3 总结
故障篇 故障的生命周期
第7章 事前治理的方法论
7.1 从故障中总结经验
7.2 从系统资源层面和日志中巡检异常
7.3 从标准和规范中寻找闭环之路
7.4 从业务中挖掘基础服务的使用问题
7.5 技术风险防控运营成本
7.6 总结
第8章 变更管控设计思路
8.1 变更管控
8.1.1 变更对象
8.1.2 变更发布
8.1.3 变更可灰度
8.1.4 变更可回滚
8.1.5 变更可监控
8.1.6 配置项变更
8.1.7 变更管控思路
8.2 JumpServer使用的艺术及工单交互