从运维菜鸟到大咖,你还有多远II:企业数据中心建设及管理
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

一、重复故障的隐患

Tom来到上海的灾备中心,这个数据中心与典型的银行数据中心一样,占据了银行办公楼副楼的大部分。多年以前,独立建筑的金融数据中心还很少,因此大部分的数据中心都建在银行办公楼中,也有不少以副楼的形式出现。数据中心多和办公大楼共享备用发电机组,也有部分共享水冷系统,这也带来金融行业比较常见的数据中心运维管理界面的问题。因为办公楼的发电机组大多由总务部门牵头负责,科技部虽然负责数据中心的运营,并且需要发电机作为应急用途,但实际上发电机不在其管辖范围内。曾经有银行因为市电停电期间备用发电机突然故障,导致整个业务系统中断近8个小时。运维管理界面的划分是运维管理的一项重要内容,此处不再过多表述。

新领导来视察,负责数据中心的徐帅很重视,把数据中心仔细整理了一番,看上去非常整洁。不过,Tom也是“老江湖”,知道数据中心外表井井有条固然重要,但管理的核心还在机电系统上,所以他请徐帅拿出过去两年的事件和事故记录。在数据中心圈子的术语里面,所有的异常都被定义为事件(incident),事故(fault)则是指导致系统中断的事件。导致事件的原因如果没有被及时消除,就很有可能最终酿成事故。

徐帅派人找来数据中心过去几年的运行记录。数据中心有那么多的设施设备,发生一些事件也很正常。大部分的事件都比较常规,但2018年发生的一起事故引起Tom特别的重视。因此,他让徐帅和相关技术人员把事故详细地复盘了一遍。徐帅为了讲清楚,先把数据中心UPS系统配电图展示了一下,如图2-1所示。

图2-1 UPS系统配电及故障示意图

从图2-1(a)中可知,该数据中心配置的是2N供电系统,UPS-1和UPS-2分别给机柜群(这里画出3个机柜)的机柜1、机柜2和机柜3的双输入电源IT设备的两个输入端供电。此系统已经运行多年,各种设备运行正常。

2018年的某一天,B路的UPS-2故障转旁路运行,因为是2N供电系统,IT设备都是双电源输入设备,所以IT负载没有受到影响,运行正常。

UPS设备故障转旁路运行,徐帅自然要找UPS设备厂商来维护,UPS设备厂商工程师检查了设备并做了相应的修复,同时提出该UPS设备运行时间较长,有些原件已经老化,即使完全修复,在投入使用后仍不能保证达到原产品的可靠性水平。再者负载量已接近设备的满载(每路50%)运行,经过协商,最后徐帅请示上级,决定更换UPS,主要是提高一个容量等级。为了保证系统的连续运行,决定先更换这次发生故障的一台UPS设备,系统运行正常后再更换配置在A路的一台UPS设备。

就在更换操作时,重大事故发生了。在UPS厂商拆除(断开UPS输入输出开关)已停机的UPS-2时,机柜群中的几十台服务器损坏,导致部分的系统中断,所幸这些服务器上运行的只是银行研发用的应用,即使这样,这也是一起事故,当时徐帅也没少被领导骂。

故障的直接责任理所当然地扣在了UPS设备厂商头上,UPS设备厂商的技术人员莫名其妙,因为UPS当时已经处于停机状态,在拆除过程中也没有任何必然造成系统故障的违规操作,这点徐帅下面的运维人员可以证实。在事故鉴定会上,UPS设备厂商实事求是地报告了整个过程,经多位专家的分析,最终没有找出造成事故的必然原因。但是既然出了事故,就要有人承担责任。最后,UPS设备厂商承担责任,无偿更换了新的UPS设备,安装恢复后系统运行正常,这件事到此结束。

以Tom多年的运维经验,他知道,在事故发生后,如果没有找到真实的故障原因并予以解决,就很难保证事故不会再发生。他也清楚行业潜规则,很多事故找不到原因,或者说有时候明知道是业主自身的原因,最终都让设备厂商来承担责任。讲道理的业主会和承担责任的设备厂家许诺好将来采购时优先考虑他们,设备厂家考虑到将来的业务机会,很多也就无奈配合了。

但是,导致事故的本质原因没有找到,相当于隐藏的地雷没有被排除,随时有可能再次引爆,这对于Tom后期的工作来说是一个重大的威胁。他觉得还应该找个高手来帮自己解决这个疑难杂症,于是就想起了张老师。

张老师是中国科学院计算技术研究所的退休专家,中国电源学会副主席。当年冯小刚的书中说陈道明:“自打中国有明星的那一天起,他就是明星。”这话放在张老师身上也非常适合:自打中国数据中心有专家的那天起,张老师就是专家了。

因为张老师的身份,他经常被业主请去做培训,“圈粉”无数。如果业主数据中心发生了事故,他就会被请去协助判断问题的所在,见过无数的“作案现场”,算得上是数据中心的“福尔摩斯”。Tom和张老师见过多次,马上安排徐帅联系张老师,请他安排时间来帮助做个诊断。