案例26 交叉板上报HSC_UNAVAIL告警
故障现象
某铁路局汇聚层改造,OSN7500设备升级至V100R010C03SPC208版本后,交叉板上报HSC_UNAVAIL告警。
组网情况
无。
原因分析
1.备用交叉板硬复位不到5min;
2.主备交叉板版本不一致;
3.单板主机软件版本和硬件版本不一致;
4.交叉板坏;
5.业务板坏;
6.子架背板坏。
故障定位及处理过程
1.该告警用于提醒用户此时最好不要对主板进行硬复位或拔板操作,以免影响业务,因为备板刚上电运行时需要从主板同步部分数据,若无异常,等待单板复位成功(约5~8min);
2.等待一段时间后网管查询告警未消除,怀疑主备交叉单板的软件版本不配套,主备板的软件版本不一致会导致HSC_UNAVAIL告警上报,使用命令行:sftm-get-nesoftver:9和sftm-get-nesoftver:10;确认主备交叉板版本是一致的;
3.因此怀疑为HSC_UNAVAIL告警误报或者交叉板故障,网管侧对网元告警进行同步告警操作后,发现该网元27槽位SL64单板上报TR-LOC告警;
4.目前只有单块业务板上报TR-LOC告警,其他业务板全部运行正常,网管确认27槽位单板为新增板卡,未开通任何业务,则通知现场人员将27-SL64单板拔除,网管上交叉板HSC_UNAVAIL告警消失,定位为27槽位单板故障引起交叉板告警上报;
5.更换27-SL64单板后,交叉板HSC_UNAVAIL告警消失,故障排除。
总结和建议
1.HSC_UNAVAIL告警出现的时候不一定会影响交叉主备倒换,只是用来提醒用户此时最好不要对主板进行硬复位操作,以免影响业务(备板刚起来的时候要从主板同步数据);
2.出现HSC_UNAVAIL告警的时候一定要根据告警参数确定产生该告警的原因;
3.告警参数PARA1=0×80:表示备用交叉板刚硬复位起来不到5min(在5~8min的范围内都属于正常,因为这个计时是从告警模块的任务开始运行之后开始计数的),如果此时没有其他异常,5min后这个告警会自动消失;
4.告警参数PARA1=0×01:表示备板检测到本板状态坏,出现此告警一般情况下会伴随着HARD_BAD告警,如果当前告警中无HARD_BAD告警,就要注意查询一下历史告警中有无HARD_BAD,同时备份黑匣子的记录,定位到具体是哪一方面的硬件故障引起的;
5.告警参数PARA1=0×02:表示业务板检测到备板坏,出现此告警的时候,一般业务板会同时上报TR_LOC或者T_LOSEX告警,如果所有业务板都上报TR_LOC或者T_LOSEX告警,可基本确认为交叉板故障,更换故障交叉板即可,若更换交叉板后告警未消除,则需检查子架背板是否有倒针现象。如果只有某几块业务板上报TR_LOC或者T_LOSEX告警,则可基本确认为业务板故障,更换上报TR_LOC告警或者T_LOSEX告警的业务板即可。