如何定位华为OSN3500设备扩展子架电缆故障
如何定位扩展子架电缆故障
现象描述:
OSN3500支持带扩展子架,当扩展子架电缆发生故障时,主子架的交叉板将上报BUS_ERR告警。那么如何判断是哪根电缆故障呢?
原因分析:
OSN3500的主子架与扩展子架之间有四根电缆,当电缆发生故障时地,需要定位到具体哪根电缆发生问题,这样才便于有针对性地更换电缆。
处理过程:
1、如何判断是扩展子架电缆问题引起主子架交叉板上报BUS_ERR?
当BUS_ERR的PARA[0]为0x12时,即表示扩展子架送过来的总线有问题,而此时如果PARA[2]的BIT[2]=1,则一般就可判定扩展子架的电缆存在问题,此时PARA[2]常常为0x04或0x06,例如:
131396249 9 BUS_ERR MJ end 2006-11-1 23:47:30 2006-11-1 23:47:36 0x12 0x02 0x04 0x01 0xff
此时,一般还伴随有HSC_UNAVAIL告警,其PARA[0]为0x04。
131359349 9 HSC_UNAVAIL MJ end 2006-9-17 11:48:28 2006-9-17 11:49:51 0x04 0x01 0x09 0xff 0xff
2、确定问题为电缆故障后,如何将故障定位到具体的电缆?
为了确定具体是哪根电缆发生了故障,则需要采集新的数据。
(1)查询第一根总线状态
:optp:9,0,77,1,d,51,2,2,22,1; // 9表示板位号,如果查询10号板,请改为a
结果说明:如果返回结果的最后两个参数为00 00则表示没有告警,总线状态正常,其他值都表示有告警。
(2)查询时钟异步状态
:optp:9,0,77,1,d,51,a,0,12,1; // 9表示板位号,如果查询10号板,请改为a
结果说明:如果返回结果的最后一个参数为8*,如80,表示异步,否则都为同步。
(3)查询第二根总线状态
:optp:9,0,77,1,d,51,2,2,26,1; // 9表示板位号,如果查询10号板,请改为a
结果说明:如果返回结果的最后两个参数为00 00则表示没有告警,总线状态正常,其他值都表示有告警。
(4)查询时钟异步状态
:optp:9,0,77,1,d,51,a,0,12,1; // 9表示板位号,如果查询10号板,请改为a
结果说明:如果返回结果的最后一个参数为8*,如80,表示异步,否则都为同步。
(5)查询当前选择的db头和db头状态
:optp:9,0,77,1,d,51,a,0,50,3; // 9表示板位号,如果查询10号板,请改为a
结果说明:将返回结果的第4和第5个参数组成一个数C,C的BIT[0]表示第一片DS90CP22的选择控制,当它的值为0时表示选择扩展子架引线板A的业务,当它的值为1时表示选择扩展子架引线板B的业务;C的BIT[1]表示第二片DS90CP22的选择控制,当它的值为0时表示选择扩展子架引线板A的业务,当它的值为1时表示选择扩展子架引线板B的业务;C的BIT[2]表示DB头切换次数;其它BIT没有定义。
注意:60号XCE为A引线板,连接到9和10号UXCSB的下端口;59号XCE为B引线板,连接到9和10号UXCSB的上端口,这可能与习惯不太相符。另外,如果查询当前总线有告警,且当前时钟不异步,才上报BUS_ERR告警;如果时钟异步,不管总线有没有告警,都不上报BUS_ERR告警;DB头切换也会带来B1误码。
由于扩展子架电缆故障引起的BUS_ERR会时有时无,这取决于时钟的同步或异步状态。因此,当BUS_ERR发生时采集上面的数据,分析时钟同步且相应总线存在告警的情况下选择的DB头,就能将故障定位到具体的电缆。更详细的数据采集脚本和事例分析请见附件。
附:扩展子架电缆故障分析实例
一套带扩展子架的OSN3500的10号交叉板上报BUS_ERR和HSC_UNAVAIL,告警参数如下:
150370 10 BUS_ERR MJ start 2006-2-21 20:35:51 None 0x12 0x02 0x04 0x02 0xff
150374 10 HSC_UNAVAIL MJ start 2006-2-21 20:39:39 None 0x04 0x01 0x0a 0xff 0xff
HSC_UNAVAIL的PARA[0]为0x04,表明它是由于BUS_ERR引起。BUS_ERR的PARA[0]=0x12,说明扩展子架送过来的总线有问题,PARA[1]=0x02更表明第二根总线有问题;PARA[2]=0x04说明总线存在B1误码,是由扩展子架电缆故障引起;PARA[3]=0x02表示BUS_ERR是由两块交叉板握手检测到的。关于BUS_ERR的告警参数分析请见相关案例。
因此,根据BUS_ERR的告警参数可以判断扩展子架的电缆存在问题,但到底哪一根有问题呢?这就需要采集进一步的数据分析。
查询第一根总线状态
:optp:a,0,77,1,d,51,2,2,22,1
Optp cmd : 0d51
02 02 22 00 00
Total records :1
结果说明第一根总线没有问题。
查询时钟状态
:optp:a,0,77,1,d,51,a,0,12,1
Optp cmd : 0d51
0a 00 12 00 00
Total records :1
结果说明时钟同步
查询第二根总线状态:
:optp:a,0,77,1,d,51,2,2,26,1
Optp cmd : 0d51
02 02 26 00 04
Total records :1
结果表明第二根总线异常,有参数为0x04的告警,说明存在B1误码。
查询此时的时钟状态
:optp:a,0,77,1,d,51,a,0,12,1
Optp cmd : 0d51
0a 00 12 00 00
Total records :1
结果表明时钟同样同步状态,因此,当总线有告警时,BUS_ERR将产生。到此更进一步地明确BUS_ERR是由电缆故障引起。
查询当前的DB头,确定到底是哪根电缆故障
:optp:a,0,77,1,d,51,a,0,50,3
Optp cmd : 0d51
0a 00 50 00 03 00 01 00 01
Total records :1
返回结果的第4和第5个参数组合成0x03,二进制表示为11,即第一片DS90CP22和第二片DS90CP22都在选择扩展子架引线板B的业务,而扩展子架引线板B即59号XCE板,它通过电缆与9和10号UXCSB的上端口相连。考虑到BUS_ERR只在10号板上报,因此,需要更换10号板与59号板之间的连接电缆。更换后,告警消失。
本章相关技术资料和SDH设备故障处理流程由深圳市鼎为网络技有限公司收集整理(www.szdingwei.net),转载请保留!本公司专注华为SDH光传输设备,SDH传输设备的销售。
- 上一篇:华为OSN3500上报BUS_ERR和HSC_UNAVAIL告警 2018-12-16
- 下一篇:ECC分配问题导致OSN3500设备升级后网元无法监控 2018-12-16