从运维菜鸟到大咖,你还有多远II:企业数据中心建设及管理
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

四、这些年,同行在系统性故障上踩过的“坑”

零地线的问题很容易导致系统性故障,张老师举了以下两个案例来说明问题。

案例1:地线上存在中性线电流域或由工频机UPS无源滤波器导入的谐波电流

国家某部门大型计算机机房,已经投入运行,系统运行正常,但是某机柜存储设备发生故障,存储硬盘损坏。更换设备恢复后不久,又在同一机柜发生同样的故障。

存储设备厂家认为,该设备已经是批量生产的常规产品,且在世界各地有大量设备在运行,因而可排除设备质量问题。存储设备厂商怀疑是供电环境造成的,于是就蹲守在机房监测UPS输出电压,几天下来未发现UPS输出有电压漂移、顺变、尖峰干扰等异常现象。

鉴于UPS设备成为最大的怀疑对象,于是UPS厂商派技术人员对UPS做了全面的检查,发现设备运行正常,各种指标都满足要求。同样地,应用户要求,UPS厂商也对设备做了长时间蹲守监测,几天下来也未发现UPS输出有任何异常现象。

用户又请来了张老师,张老师对整个供电系统做了全面检查,从供电方案到供电设备均未发现明显问题。最后检查到地线系统,用示波器测量地线电流时,发现地线中有较大的周期性的常态电流,不管这个地线电流是不是存储器故障的直接原因,它的存在本身就是不正常的。导致这个电流存在的最大可能是互联设备之间存在地电位差,而这个地电位差是地线系统有中性线二次接地造成的。那么是人为接线错误呢,还是该机房配备的工频UPS中的无源滤波器导入的谐波电流呢?需要做进一步检查。但是系统很复杂,且不能停机检查,要找出二次接地原因和具体的接地点谈何容易。

既然肯定地线系统有问题,用户讨论的结果是,从易到难检查看看。在用户检查地线过程中,发现发生故障的机架的安全地没有与工作地接在一起,于是接接试试,结果故障消除了,而且十几年来此类故障再也没有发生过。

问题已经清楚,设备机架的安全地和工作地分别接入的机架中,存储设备的逻辑地应该接在它的外壳上,进而又通过外壳与机架的接触间接地接到了安全地上,而存储系统的硬盘并没有通过外壳做良好的接地,只是传输线金属外包屏蔽线接到了机架工作地上。再者,我们已经知道地线中有周期性的地电流,那么两个不同路径引入的地必然存在较大的电位差,这应该是造成存储设备重复故障的主要原因之一。

故障的罪魁祸首当然是地线中存在的由零线二次接地分流的周期性的中性线电流,或者是由工频机UPS无源滤波器导入的谐波电流了。

要彻底消除这一故障隐患,最好的办法是排除中性线二次接地,如果是工频机UPS无源滤波器导入的谐波电流,就应配置不产生谐波的高频机UPS替代工频机UPS。

案例2:大屏幕供电系统的地线浮空

某铁路信号系统机房,已投入运行,且系统运行正常,唯独大屏幕运行有问题,屏幕持续地不规律闪动。

用户召集了供电设备厂商、大屏幕厂商对供电设备和大屏幕设备做了全面检查,都没有发现问题。用户又找来机房建筑商,对布线的质量和正确性做了详细检查,也没有发现问题,大屏幕照常闪动。

用户找来张老师,张老师同样对供电设备、供电方案和布线正确性做了检查,也没找到造成大屏幕闪动的必然原因。但是,在检查过程中,发现机房布线凌乱,特别是地线系统,机房在3楼,大楼接地极在一楼,机房地线接到三楼配电盘,但机房地线并不是专用的,大楼的照明、空调、整个大楼其他设备,甚至电梯,都用了同一根地线线缆,因而断定地线干扰严重。根据大屏幕持续的闪动,推测到地电位不稳定,地线中可能有供电系统中的持续周期性的零线工作电流。

进一步对地线系统检查很困难,对地线整改更不可能,于是张老师用了排除法确定问题原因,建议用户把大屏幕供电系统的地线浮空,结果问题解决了。

大屏幕供电系统的地线浮空,同样不利于大屏幕系统的稳定性,最终还是要接地的。鉴于机房建在办公楼,运行年限较长,供电系统特别是布线系统极不规范,因此建议尽快建新机房。

听完张老师的课,徐帅说道:“真没想到零线地线有这么重要,简直就是数据中心的‘任督二脉’,如果理不清楚,就会出现‘亚健康’。”

众人一阵笑,Tom赶紧安排晚上招待张老师。