SRE:Google运维解密
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

译者序

当我在2016年年初听说本书的英文版即将面世时,第一时间就意识到这将是一本不可多得的经典之作。我作为Google SRE曾经的一员,看到本书中提到的那些熟悉的技术和理念时非常兴奋——现在终于有机会用一种体系化、结构化的方式将这些知识和技术与大家分享了!

Google SRE全球共计约1000人,负责运维Google的大部分家喻户晓、不可或缺的商业应用。同时,SRE还负责运维幕后那些全球首屈一指的计算基础设施,不管是全球百万台级别的服务器集群,还是全球一流的网络架构,背后都有SRE的身影。每个小的传统运维问题在这个平台上似乎都被无限放大了。但是与此同时,Google恰恰又是利用最传统、最朴素的软件工程方法将其一一解决的。

SRE是一群天生的怀疑论者,我们怀疑一切宣传起来“高大上”的技术,以及任何“神奇”的产品——我们只想看具体的设计架构、实现细节,以及真实的监控图表。SRE在保障系统可靠性方面并没有什么万能药,有的只是这种极强的务实态度(pragmatic)。这种务实的态度决定了SRE会认真对待运维问题。在设计评审中,他们会认真推演各种灾难场景。在每周例会时,他们又会讨论如何消除和防范事故发生、优化各种警报策略以及增强自动化功能。在平时工作中,他们则会精心维护团队的各种文档和项目源代码,一点一点地提高服务质量。回头看来,SRE其实是一群崇尚工匠主义的人,我们坚信只要不断地解决根源问题,服务质量就一定会得到提升。而SRE正是用这种“日拱一卒”的方法造就了Google这个世界级的奇迹。

本书的风格亦是如此。书中很多章节用务实的语言记录了Google SRE团队在面临各种困难时的思考过程、所采用的解决方案以及事后总结的经验教训。本书中没有介绍任何“魔法系统”,也没有提供任何“奇技淫巧”,有的只是对问题本质发人深省的深入探讨。从这种意义上讲,本书体系化地覆盖了运维工作的方方面面,是一本运维行业的教科书。我希望通过翻译此书,能将这种体系和理念分享给更多的人。期待与大家更深入地探讨与交流!

回首在Google度过的8年时光,我想感谢我所有的前同事,感谢他们对我的各种帮助,这段职业经历是我终生难忘的。而且,我还要感谢我的家人,是他们的耐心陪伴和帮助才让我踏踏实实地度过了这200多个小时,完成了我人生中最大的一个Project。

孙宇聪

2016年8月3日 傍晚