华为OSN3500设备跟踪时钟质量差导致交叉板上报HSC_UNAVAIL
问题描述
工程师在华为OSN3500设备的6-13槽位扩容两块SSN1EMS4单板。扩容完成后,备用交叉板10槽SSN1GXCSA频繁上报HSC_UNAVAIL告警。查询主机软件版本为:5.21.18.50P01,单板版本:7.15。工程师先后更换两块EMS4单板,更换主用交叉板,更换子架,均没有解决问题。
告警信息
0:58:30 0x02 0x01 0x0a 0xff 0xff
230632 10 HSC_UNAVAIL MJ end 2011-06-07 10:58:42 2011-06-07 11:16:39 0x02 0x01 0x0a 0xff 0xff
230640 10 HSC_UNAVAIL MJ end 2011-06-07 11:17:59 2011-06-07 11:23:17 0x02 0x01 0x0a 0xff 0xff
230642 10 HSC_UNAVAIL MJ end 2011-06-07 11:23:54 2011-06-07 11:30:26 0x02 0x01 0x0a 0xff 0xff
230648 10 HSC_UNAVAIL MJ end 2011-06-07 11:31:02 2011-06-07 11:59:18 0x02 0x01 0x0a 0xff 0xff
处理过程
根据以上分析,现网该网元备交叉上报HSC_UNAVAIL告警可能原因是该网元跟踪的第一路外时钟质量很差导致交叉板输出给ssn1ems4单板的时钟和帧头抖动,从而致使ssn1ems4单板上报交叉坏。设置本网元跟踪内部时钟源后,问题解决。联系客户提供稳定的外部输入时钟源。
根因
从告警参数看是业务单板检测到备用主控板坏。查询10-ssn1gxcsa黑匣子BB9,确认上报交叉板坏的就是新扩容的两块EMS4单板。
54975 2011-6-7 11:46:19 0x56 Level:3, XcsXcpModule.cpp, Line:2589, Report Xcs Bad BDNum=2, BDId: 6 13
54976 2011-6-7 11:46:19 0x56 Level:3, XcsXcpModule.cpp, Line:2610, Report OthXcs Bad BDNum=0
54977 2011-6-7 11:56:36 0x56 Level:3, XcsXcpModule.cpp, Line:2589, Report Xcs Bad BDNum=2, BDId: 6 13
54978 2011-6-7 11:56:36 0x56 Level:3, XcsXcpModule.cpp, Line:2610, Report OthXcs Bad BDNum=0
由于目前使用的7.15版本已经解决了误检测交叉坏问题(SC0000610778),排除软件因素。
通过使用串口采集EMS4单板的打印信息,发现ssn1ems4的ClkLineState 寄存器在抖动(ClkLineState = 0x0表示正常,ClkLineState = 0x1表示异常)。
********************************************************************************
当前工作板: 0x0
主板:OnlineStateA = 0x0, OKStateA = 0x0, ClkLineState = 0x0, BusState = 0x0
备板:OnlineStateB = 0x0, OKStateB = 0x0, ClkLineState = 0x1, BusState = 0x0
StatusXcsA = 0x0, StatusXcsB = 0x1
********************************************************************************
********************************************************************************
当前工作板: 0x0
主板:OnlineStateA = 0x0, OKStateA = 0x0, ClkLineState = 0x0, BusState = 0x0
备板:OnlineStateB = 0x0, OKStateB = 0x0, ClkLineState = 0x1, BusState = 0x0
StatusXcsA = 0x0, StatusXcsB = 0x1
*****************************************************************************
ClkLineState = 0x1表示ssn1ems4检测到10号交叉送过来的38M时钟或2K帧头坏。
确认交叉板送给EMS4单板的信号确实存在抖动。
对数据进一步分析,发现网元交叉单板时钟DA值不稳定,波动较大,因此怀疑ssn1ems4单板上报交叉38M时钟和2K帧头抖动是由于跟踪的时钟时钟质量不好导致:
9-829:szhw [MSW-02 ][][2011-07-27 11:15:59+02:00]>
:cfg-get-synstateda:9,0
SYN-STATE-DA
PLLTYPE STATE DA
0 1 2628
Total records :1
#9-829:szhw [MSW-02 ][][2011-07-27 11:15:59+02:00]>
:cfg-get-synstateda:9,0
SYN-STATE-DA
PLLTYPE STATE DA
0 1 2065
Total records :1
#9-829:szhw [MSW-02 ][][2011-07-27 11:16:00+02:00]>
:cfg-get-synstateda:9,0
SYN-STATE-DA
PLLTYPE STATE DA
0 1 1969
Total records :1
#9-829:szhw [MSW-02][][2011-07-27 11:16:00+02:00]>
:cfg-get-synstateda:9,0
SYN-STATE-DA
PLLTYPE STATE DA
0 1 2053
该网元跟踪的时钟为第一路时钟,从DA值不停波动的情况看,该第一路外时钟质量很差:
#0x9033d:cfg-get-cursyn:9;
CUR-SYN : 0xf001
建议与总结
华为OSN3500设备EMS4单板的芯片对时钟信号要求很高,EMS4单板每50ms检测一次帧头和38M时钟信号,一旦检测到坏就会上报,联系5次查询都为好时才开始上报好。
本章相关技术资料和SDH设备故障处理流程由深圳市鼎为网络技有限公司收集整理(www.szdingwei.net),转载请保留!本公司专注华为SDH光传输设备,SDH传输设备的销售。
- 上一篇:华为OSN3500设备N4SL64等单板软件缺陷导致主控温度性能异常 2018-12-7
- 下一篇:华为OSN3500设备SXCSA交叉板异常无法查询SNCP倒换状态 2018-12-7