Foreword
推荐序4
亲爱的读者朋友,你手头正捧着的是张观石老师用20年的“功力”、历时近4年打磨的一部大作。本人非常荣幸参与了此书后期的审稿和修改工作,因此比大多数读者更早阅读了本书。
我个人也一直在从事运维相关的工作,于我而言,本次审稿工作是一个对运维知识体系迭代和结构化升级的过程,收获颇丰。张老师在书中表现出的开阔的视野、高屋建瓴的行文框架、对可靠性工程的深刻洞察和总结、翔实的数据以及信手拈来的案例,无一不体现了他在稳定性建设方面的丰富经验和深厚功力。
移动互联网、云计算、物联网、5G等技术蓬勃发展,企业数字化转型浪潮持续推进和深化,互联网服务已经深入人们生活的方方面面。这些服务的稳定性也关乎到人们的生活、生产甚至生命健康,因此我们对服务的稳定性提出了更高的要求。在这样的背景下,Google提出的SRE理念在国内企业中持续落地和演进,但颇为遗憾的是,业界一直缺少一本系统讲解如何将SRE落地的图书,本书即将填补这个空白。
本书将软件可靠性工程概括为6种能力——可靠性设计能力、观测能力、修复能力、保障能力、反脆弱能力、管理能力,具体的内容也是沿着这6种能力依次展开的。全书遵循从原理框架到实践案例,再到规律总结的思路,逻辑连贯、体系自洽、内容丰富、数据翔实。书中的案例可参考性、可操作性、可落地性都非常强,同时还紧贴业界技术的发展趋势,涵盖了诸如可观测性、混沌工程、AIOps等新兴技术或理念,具有足够的先进性。
概括而言,本书给出了一套完整的用于构建和维护一个稳定可靠的互联网平台的框架体系。无论对刚接触到SRE的新手、需要系统梳理SRE知识体系的老手,还是对长期从事稳定性建设工作的技术专家而言,本书都是一本不可多得的案头宝典。相信本书也一定会在可靠性工程领域写下浓重的一笔。
我深知本书写作的不易,得知本书即将付梓,亦不胜欣喜,诌一首打油诗聊表庆贺:
四载著一册,功合廿雪冬。
新图终付梓,索骥更从容。
——石鹏 美图高级运维经理