联系我们Contact
联系方式

深圳鼎为网络科,一家从事华为Optix OSN3500,Optix OSN2500,Optix OSN1500设备销售的公司,致力于对超长距离及多业务数据传送网络需求的客户提供质量有保证的传输设备,本公司整机及单板型号齐全,价格合理,期待新老客户来电咨询!

你的位置:首页 > 新闻动态 > SDH技术

HSC_UNAVAIL告警详细说明及定位

发布时间:2018-5-24 14:40:51浏览次数:资料来源:www.szdingwei.net

问题描述

某网络现场发现了HSC_UNAVAIL告警,经过处理发现该告警有很多原因可能导致,NG-SDH设备现场会有很多情况上报HSC_UNAVAIL告警,下面对该告警的含义进行详细的说明。

 告警信息

HSC_UNAVAIL

 处理过程

在处理过程,最终定位是交叉板故障,但通过分析,不仅是交叉板故障会导致该告警的上报,下面按上报告警的参数来列举可能会出现的故障:

1、告警参数PARA1 = 0x80

表示备交叉板刚硬复位起来不到5分钟(5分钟的计时可是有点误差,在58分钟的范围内都属于正常,因为这个计时是从告警模块的任务开始运行之后开始计数的),如果此时没有其他异常,5分钟后这个告警会自动消失。

这个告警出现的时候不一定会影响交叉主备倒换,只是用来提醒用户此时最好不要对主板进行硬复位或拔板操作,以免影响业务(备板刚起来的时候要从主板同步一些数据),另外单板上有srv亮黄灯

2、告警参数PARA1 = 0x01

   表示备板检测到本板状态坏,出现此告警一般情况下会伴随着HARD_BAD告警,如果当前告警中无HARD_BAD告警,就要注意查询一下历史告警中有误HARD_BAD,同时备份黑匣子的记录,定位到具体是哪一方面的硬件故障引起的。(注意:如果当前告警种无HARD_BAD告警,还有一种可能是刚硬复位起来,上报了PARA1=0x81的告警,5分钟计时到之后取消了0x80的告警,所以剩下PARA1=0x01的告警,此告警是由于主机备份未完成置坏ready线引起,要主机备份完成后才会结束。)

3、告警参数PARA1 = 0x02

   表示业务板检测到备板坏,出现此告警的时候,一般业务板会同时上报T_LOSEX(业务板检测交叉送过去的业务总线有告警)或TR_LOC(业务检测到交叉板送过去的帧头、时钟、板坏等故障)等告警,同时通过0xCE4命令上报交叉板坏;如果是带扩展子架的UXCSB,也有可能是XCE单板上报BUS_ERR告警

   <如果业务板或XCE单板没有上报相应的告警,很可能是未添加逻辑板位,或业务板上报告警有故障>

   在交叉板上可以通过0xC47命令查看业务板上报交叉板的状态

   :optp:9,0,77,1,c,47,0

   :optp:9,0,77,1,c,47,1

4、告警参数PARA1 = 0x04

   表示交叉备板检测到2BUS_ERR告警(即上报告警的总线主板检测正常,备板检测异常)

   在交叉板上可以通过0xC47命令查看二型BUS_ERR检测的综合状态

   :optp:9,0,77,1,c,47,2

   :optp:9,0,77,1,c,47,3

具体告警如下

注意:交叉实际上报告警也有可能是上述四种情况2种、3种或4种的复合,如PARA1= 0x81PARA1=0x03PARA1=5PARA1= 0x07等,此时要根据各个bit代表的含义逐步定位。

5、告警不消失

   硬复位主交叉板进行主备交叉倒换后,出现HSC_UNAVAIL告警不消失。

   该问题大致的情况如此:主机在给交叉板下硬复位命令前先下0xC52预复位命令,置交叉板坏离线(这样做的目前是为了实现交叉主备的快速倒换,减少对业务的影响),在单板真正复位之前交叉软件检测到单板状态坏上报HSC_UNAVAILPARA1= 0x01),之后由于主机方面处理的故障,单板复位后告警一直不消失,且无BD_STATUS告警上报。

   出现类似的情况我们要及时去现场定位是否是交叉板的问题

方法一:

直接用0x211命令单板上是否还有告警

:optp:9,0,2,6,2,11,0,0

方法二:

也可以使用alm-set-bsrep命令打开原始告警上报功能,看交叉板是否给主机上报结束告警了,同时这个告警应该注册成来自单板.,即使交叉没有上报,在3分钟后也会在主机自动校验结束的。如果交叉板没有持续给主机上报告警,那无论如何都不是交叉板的问题了 。

 根因

HSC_UNAVAIL只有备板会上报,该告警的含义如下:

告警含义:para[0]   表示告警的类型

     BIT[0]:本板状态坏

     BIT[1]:有业务板检测到本板坏

     BIT[2]:本板检测到2BUSERR

     BIT[3~6]reserved

     BIT[7]:备板硬复位起来5分钟

para[1]   表示不可用板的主备状态

         0-主板;1-备板

para[2]   表示板不可用的物理槽位号

         910(3500设备)

         8081(15002500设备)

para[3~4] 0xff

 建议与总结

该告警总结如下:

1、交叉板硬复位起来后5分钟,如果无伴随其他故障,只上报HSC_UNAVLIABLE告警;

2、交叉板软件检测自身硬件故障,置单板坏,此时除上报HSC_UNAVLIABLE告警外,还伴随着HARD_DAD告警和其余导致硬件置坏的告警,如CHIP_FAIL,POWER_ABNORMAL等;

3、交叉板的FPGA检测到硬件故障,此时除上报HSC_UNAVLIABLE告警外,还伴随着HARD_DAD告警;

4、交叉软件检测到2BUS_ERR,此时除上报HSC_UNAVLIABLE告警外,还伴随着BUS_ERR告警;

5、业务板检测交叉板送过去的时钟或帧头或信号有故障,报交叉板坏(交叉板本身无任何故障),此时交叉板只上报HSC_UNAVLIABLE告警,业务板上报T_RLOCT_LOSEX告警;

HSC_UNAVAIL告警只有交叉备板才会上报!主交叉板不处理!


销售华为OSN3500设备_产品报价_销售厂家_产品特性_产品描述_华为SDH传输设备销售
供应华为OSN3500设备_故障处理_安装调测_技术指标_技术参数_华为SDH传输设备销售