HSC_UNAVAIL告警详细说明及定位
问题描述
某网络现场发现了HSC_UNAVAIL告警,经过处理发现该告警有很多原因可能导致,NG-SDH设备现场会有很多情况上报HSC_UNAVAIL告警,下面对该告警的含义进行详细的说明。
告警信息
HSC_UNAVAIL
处理过程
在处理过程,最终定位是交叉板故障,但通过分析,不仅是交叉板故障会导致该告警的上报,下面按上报告警的参数来列举可能会出现的故障:
1、告警参数PARA1 = 0x80时
表示备交叉板刚硬复位起来不到5分钟(5分钟的计时可是有点误差,在5~8分钟的范围内都属于正常,因为这个计时是从告警模块的任务开始运行之后开始计数的),如果此时没有其他异常,5分钟后这个告警会自动消失。
这个告警出现的时候不一定会影响交叉主备倒换,只是用来提醒用户此时最好不要对主板进行硬复位或拔板操作,以免影响业务(备板刚起来的时候要从主板同步一些数据),另外单板上有srv亮黄灯
2、告警参数PARA1 = 0x01时
表示备板检测到本板状态坏,出现此告警一般情况下会伴随着HARD_BAD告警,如果当前告警中无HARD_BAD告警,就要注意查询一下历史告警中有误HARD_BAD,同时备份黑匣子的记录,定位到具体是哪一方面的硬件故障引起的。(注意:如果当前告警种无HARD_BAD告警,还有一种可能是刚硬复位起来,上报了PARA1=0x81的告警,5分钟计时到之后取消了0x80的告警,所以剩下PARA1=0x01的告警,此告警是由于主机备份未完成置坏ready线引起,要主机备份完成后才会结束。)
3、告警参数PARA1 = 0x02时
表示业务板检测到备板坏,出现此告警的时候,一般业务板会同时上报T_LOSEX(业务板检测交叉送过去的业务总线有告警)或TR_LOC(业务检测到交叉板送过去的帧头、时钟、板坏等故障)等告警,同时通过0xCE4命令上报交叉板坏;如果是带扩展子架的UXCSB,也有可能是XCE单板上报BUS_ERR告警
<如果业务板或XCE单板没有上报相应的告警,很可能是未添加逻辑板位,或业务板上报告警有故障>
在交叉板上可以通过0xC47命令查看业务板上报交叉板的状态
:optp:9,0,77,1,c,47,0
:optp:9,0,77,1,c,47,1
4、告警参数PARA1 = 0x04时
表示交叉备板检测到2型BUS_ERR告警(即上报告警的总线主板检测正常,备板检测异常)
在交叉板上可以通过0xC47命令查看二型BUS_ERR检测的综合状态
:optp:9,0,77,1,c,47,2
:optp:9,0,77,1,c,47,3
具体告警如下
注意:交叉实际上报告警也有可能是上述四种情况2种、3种或4种的复合,如PARA1= 0x81、PARA1=0x03、PARA1=5、PARA1= 0x07等,此时要根据各个bit代表的含义逐步定位。
5、告警不消失
硬复位主交叉板进行主备交叉倒换后,出现HSC_UNAVAIL告警不消失。
该问题大致的情况如此:主机在给交叉板下硬复位命令前先下0xC52预复位命令,置交叉板坏离线(这样做的目前是为了实现交叉主备的快速倒换,减少对业务的影响),在单板真正复位之前交叉软件检测到单板状态坏上报HSC_UNAVAIL(PARA1= 0x01),之后由于主机方面处理的故障,单板复位后告警一直不消失,且无BD_STATUS告警上报。
出现类似的情况我们要及时去现场定位是否是交叉板的问题
方法一:
直接用0x211命令单板上是否还有告警
:optp:9,0,2,6,2,11,0,0
方法二:
也可以使用alm-set-bsrep命令打开原始告警上报功能,看交叉板是否给主机上报结束告警了,同时这个告警应该注册成来自单板.,即使交叉没有上报,在3分钟后也会在主机自动校验结束的。如果交叉板没有持续给主机上报告警,那无论如何都不是交叉板的问题了 。
根因
HSC_UNAVAIL只有备板会上报,该告警的含义如下:
告警含义:para[0] 表示告警的类型
BIT[0]:本板状态坏
BIT[1]:有业务板检测到本板坏
BIT[2]:本板检测到2型BUSERR
BIT[3~6]:reserved
BIT[7]:备板硬复位起来5分钟
para[1] 表示不可用板的主备状态
0-主板;1-备板
para[2] 表示板不可用的物理槽位号
9,10(3500设备)
80,81(1500,2500设备)
para[3~4] 0xff
建议与总结
该告警总结如下:
1、交叉板硬复位起来后5分钟,如果无伴随其他故障,只上报HSC_UNAVLIABLE告警;
2、交叉板软件检测自身硬件故障,置单板坏,此时除上报HSC_UNAVLIABLE告警外,还伴随着HARD_DAD告警和其余导致硬件置坏的告警,如CHIP_FAIL,POWER_ABNORMAL等;
3、交叉板的FPGA检测到硬件故障,此时除上报HSC_UNAVLIABLE告警外,还伴随着HARD_DAD告警;
4、交叉软件检测到2型BUS_ERR,此时除上报HSC_UNAVLIABLE告警外,还伴随着BUS_ERR告警;
5、业务板检测交叉板送过去的时钟或帧头或信号有故障,报交叉板坏(交叉板本身无任何故障),此时交叉板只上报HSC_UNAVLIABLE告警,业务板上报T_RLOC或T_LOSEX告警;
HSC_UNAVAIL告警只有交叉备板才会上报!主交叉板不处理!
- 上一篇:OSN3500 SSN1AUX COM口关闭导致不能接入 2018-5-24
- 下一篇:软件版本配套问题导致交叉板SSN1GXCSA升级失败问题 2018-5-24