华为OSN3500设备时钟倒换过程中上报LTI告警
问题描述
华为OSN3500设备环形组网,-----NE1-12(slot11)-------(Slot8)NE1-23(Slot11)-----(Slot8)NE1-13-------,所有光纤不是通过光纤直接相连,中间都通过了西门子波分设备跳接,全网时钟都为扩展SSM协议,NE1-23开始跟踪NE1-12方向的时钟。现场工程师反馈在断开NE1-12与NE1-23之间的光纤时,NE1-23时钟先倒换到内部时钟源,过一段时间后再倒换到NE1-13网元方向的线路板上。上报告警:LTI, S1_SYN_CHANGE
处理过程
具体描述请参见附件
从返回的数据看,可以判断时钟情况是正常的。只是在LTI告警的上报上存在一些不合理:LTI告警都是在S1SYNCCHANGE告警之后才上报或结束上报;实际上s1syncchange告警有7-8秒的固定延迟。对于这种情况,看clknotracemode告警比较准确。
导致该问题的原因,另外一点比较重要的是:假设一个网元有两个线路时钟源A&B,当时钟源A有故障倒换到时钟源B,A时钟源故障排除,那么默认有一个5分钟的恢复时间,那么在这5分钟里面,如果时钟源B存在故障,那么在倒换恢复时间结束之前,时钟源将不会跟踪B的时钟,而是倒换到内部时钟源。听研发说这个机制是按照建议做的。这个问题应该是两端短时间内两个时钟源上面都上报RLOF导致。
解决方案
1、首先怀疑时钟配置上存在问题,经过对MO进行恢复、分析,整个环上的网元都已经开启扩展SSM协议,且中心网元的时钟ID都已经设置后,并且从问题现象看,时钟源倒换到内部时钟后30秒左右还是可以倒换到另外一个方向的,因此初步排除为时钟配置上的问题;
2、怀疑中间通过的西门子波分设备对光信号处理存在延迟,但是一线在环上的其它站点进行测试,时钟可以立即倒换,初步排除该疑点;
3、怀疑NE1-23站点交叉板上面存在故障,但是在进行交叉倒换后,故障现象依旧;
4、一线再次进行测试,然后让一线采集了时钟的部分数据,通过对数据进行分析,终于发现问题发生的原因,具体请见原因分析部分的描述。
建议与总结
大家需要了解时钟倒换与业务倒换上面的区别,业务倒换时,只要备用通道,不管倒换恢复时间是否已经到了,都会倒换到备用通道;而时钟倒换,需要在备用通道的倒换恢复时间到期后,才会倒换到备用通道上面去。
原因分析
1、00:44:46:8号板MSAIS告警结束:
107726 8 MS_AIS MJ end 2009-03-05 00:40:17 2009-03-05 00:44:46 0x01 0x00 0x01 0xff 0xff
8号板的时钟质量从DNU(时钟不可用)变化为PRC(一级时钟):
#1-23:szhw [Castellana S. ][][2009-03-05 00:44:45-05:00]>
时钟源发生倒换,从11号板倒换到8号板:
EVENT-SYN-SWITCH
FROM-SYN TO-SYN SWITCH-STATE SYN-TABLE
0x0b01 0x0801 auto syn-tbl
#1-23:szhw [Castellana S. ][][2009-03-05 00:44:45-05:00]>
2、紧接着,8号板出现rlof告警:
107739 8 R_LOF CR end 2009-03-05 00:44:46 2009-03-05 00:44:47 0x01 0x00 0x01 0xff 0xff
8号板时钟质量从prc变化成为DNU:
EVENT-SSM-CHANGE
SYN FROM-SSM TO-SSM MANUAL
0x0801 QL_PRC QL_DNU 0
#1-23:szhw [Castellana S. ][][2009-03-05 00:44:46-05:00]>
The clock source chaged from slot 8 to slot 11 //时钟源发生变化 ,从8号板倒换到11号板:
EVENT-SYN-SWITCH
FROM-SYN TO-SYN SWITCH-STATE SYN-TABLE
0x0801 0x0b01 auto syn-tbl
And then, the quality of the clock in slot 8 is DNU, and in slot 11 is 0x12 (LTI)//此时:8号板的质量为DNU,11号板的时钟质量为0x12。
3、00:45:45,11号板出现rlof告警
107741 11 R_LOF CR end 2009-03-05 00:45:45 2009-03-05 00:50:44 0x01 0x00 0x01 0xff 0xff
时钟源再次倒换:
107742 10 S1_SYN_CHANGE MJ end 2009-03-05 00:45:45 2009-03-05 00:45:51 0x01 0x00 0x01 0xff 0xff
107743 9 S1_SYN_CHANGE MJ end 2009-03-05 00:45:45 2009-03-05 00:45:52 0x01 0x00 0x01 0xff 0xff
SYN-SWITCH-STATE
SWITCH-STATE CURRENT-SYN
syn-auto 0xf101
Total records :1
#1-23:szhw [Castellana S. ][][2009-03-05 00:48:42-05:00]>
此刻跟踪内部源,上报LTI告警:
107746 9 LTI MJ end 2009-03-05 00:45:53 2009-03-05 00:49:59 0x01 0x00 0x01 0xff 0xff
107745 10 LTI MJ end 2009-03-05 00:45:53 2009-03-05 00:50:00 0x01 0x00 0x01 0xff 0xff
4、 00:49:52,8号板等待恢复时间(5分钟)到,时钟质量恢复,时钟源倒换回到8号板:
EVENT-SSM-CHANGE
SYN FROM-SSM TO-SSM MANUAL
0x0801 QL_DNU QL_PRC 0
#1-23:szhw [Castellana S. ][][2009-03-05 00:49:52-05:00]>
EVENT-SYN-SWITCH
FROM-SYN TO-SYN SWITCH-STATE SYN-TABLE
0xf101 0x0801 auto syn-tbl
#1-23:szhw [Castellana S. ][][2009-03-05 00:49:52-05:00]>
在S1SYNCCHANGE告警结束之后,LTI告警结束。
从以上情况来看,初步判断时钟情况是正常的。只是在LTI告警的上报上存在一些不合理:LTI告警都是在S1SYNCCHANGE告警之后才上报或结束上报;实际上s1syncchange告警有7-8秒的固定延迟。对于这种情况,看clknotracemode告警比较准确。
导致该问题的原因,另外一点比较重要的是:假设一个网元有两个线路时钟源A&B,当时钟源A有故障倒换到时钟源B,A时钟源故障排除,那么默认有一个5分钟的恢复时间,那么在这5分钟里面,如果时钟源B存在故障,那么在倒换恢复时间结束之前,时钟源将不会跟踪B的时钟,而是倒换到内部时钟源。听研发说这个机制是按照建议做的。这个问题应该是两端短时间内两个时钟源上面都上报RLOF导致。
本章相关技术资料和SDH设备故障处理流程由深圳市鼎为网络技有限公司收集整理(www.szdingwei.net),转载请保留!本公司专注华为SDH光传输设备,SDH传输设备的销售。
- 上一篇:华为设备对接中POS口与非POS口对级联业务的要求 2018-12-16
- 下一篇:网管查询华为OSN1500设备CXLLN主控显示错误 2018-12-14