OSN3500传递K字节错误引起复复用段协议异常业务中断
问题描述
#1600开发区汇聚OSN3500设备与#1602文化路汇聚设备组成了双纤双向复用段环
某日晚20:44:28,#1600开发区汇聚-1(市区汇聚10)8板N1SLQ16上报COMMUN_FAIL(串口通信失效告警)。
20:46:09, 8板位-N1SLQ16上报BD_STATUS (单板不在位告警)。
20:46:10,网元上报MS_APS_INDI_EX,APS_INDI复用段保护倒换告警。此后, 保护倒换恢复,业务正常。
20:52:23,环网再次发生复用段保护倒换。
20:52:29,EGS4单板上报TU-AIS告警,业务中断。期间伴随上报17板位GSCC上报HARD_BAD(单板硬件故障告警),告警参数指向 8板位N1SLQ16。
21:16:57,重启复用段协议后,保护倒换恢复正常,业务逐渐恢复。
1、#1600开发区汇聚-1(市区汇聚10)8板N1SLQ16上报COMMUN_FAIL(串口通信失效告警)。
2、#1600开发区汇聚-1(市区汇聚10)8板位-N1SLQ16上报BD_STATUS (单板不在位告警)。
3、#1600开发区汇聚-1(市区汇聚10)网元上报MS_APS_INDI_EX,APS_INDI复用段保护倒换告警。EGS4单板上报TU-AIS告警
处理过程
1、首次倒换时, #1600开发区汇聚8板N1SLQ16上报COMMUN_FAIL、BD_STATUS,导致对端#1602上报RLOS告警,引起环网复用段保护倒换,此时的倒换状态是正常的。
2、二次倒换时,业务大面积中断, 重启全网的保护倒换协议,对#1600与#1602的K字节重新进行了全网重新校验,校验后复用段协议、K字节状态正常,两端的保护倒换状态一致,保护倒换恢复正常。
3、将K字节信息采集分析,故障原因是1600开发区汇聚8板N1SLQ16硬件故障导致本网元的复用段协议模块的K字节发送不准确,导致对端没有收到正确的K字节,导致两端的协议模块没有按照预定的程序切换交叉页面,引起了倒换失败。具体过程:
A、#1602 11板位收SF消失,其会向对端#1600 8板位发送“倒换恢复请求”,#1600 8板位收到对端“倒换恢复请求”后会进行确认,并向#1602也发送“倒换恢复请求”。
B、#1602 11板位收到对端的“倒换恢复请求”后也会进行确认,同时通过11板位发送“切换空闲状态”给命令给#1600的8板位,#1600的8板位收到“切换空闲状态”后进行倒换状态恢复,下发交叉页面,本端恢复正常状态。
C、同时#1600的8板位也会发送“切换空闲状态”命令给#1602的11板位,#1602的11收到“切换空闲状态”后,本端也进行倒换状态的切换,下发交叉页面,恢复正常状态,最终使得整个环网的倒换恢复正常。
但当时故障产生时的情况:由于8板N1SLQ16 瞬报单板不在位,#1602的RLOS瞬间消失,环网开始进行倒换恢复。 D、板N1SLQ16硬件故障导致其发送的“倒换恢复请求”变成了“切换空闲状态”的命令,导致#1602直接由“倒换态”变成了“空闲正常态”,而对端#1600网元此时还处于“倒换态”,引起双方倒换状态不一致,导致了业务中断。
根因
N/A
解决方案
1、由于发生了保护倒换但业务中断,所以怀疑是复用段保护协议异常随即重启全网的复用段保护协议,重启协议后保护倒换恢复正常,业务逐渐恢复。
2、由于#1600开发区汇聚8板N1SLQ16,N1SLQ16上报COMMUN_FAIL(串口通信失效告警)、 BD_STATUS (单板不在位告警)的异常告警,对此单板进行更换,更换后异常告警消失,保护倒换告警消失,保护倒换结束,复用段环网恢复正常状态。
3、次日凌晨,做复用段倒换测试,多次倒换测试都正常,业务无中断。
建议与总结
复用段倒换时,业务大面积中断的故障,可考虑K字节传递异常,或复用段协议异常的影响,造成业务大面积中断,可以果断尝试停启复用段协议的方法,使协议复位,快速回复业务,然后处理其他故障单板。
本章相关技术资料和SDH设备故障处理流程由深圳市鼎为网络技有限公司收集整理(www.szdingwei.net),转载请保留!本公司专注华为SDH光传输设备,SDH传输设备的销售。
- 上一篇:OSN3500复用段环长径测试倒换时间超标原因分析 2018-11-28
- 下一篇:OSN7500单板软件版本与设备软件版本不匹配导致业务不通 2018-11-28