OptiX OSN3500 SNCP保护倒换失败故障分析
问题描述
某局OSN6800设备组成的OTN/ OTN/ 波分环A-B-C-D-E配置了ODUk-SNCP保护。其中一条ODU1业务的工作通道为A-E,保护通道为A-B-C-D-E.
某日A站—E站之间工作通道光缆中断,业务倒换后A站点该ODU1业务保护通道上报ODU1_PM_SSF告警,业务中断。
告警信息
处理过程
1、查询SNCP保护倒换状态,显示业务已正常倒换,但保护路径状态为SF;A站的OTU单板上报ODU1_PM_SSF告警,其余各站点单板波长配置正确,无异常告警,无误码等异常性能事件;
2、采用插入SM开销字节的方式定位,该波道各个单站的内部连纤方式正确,排除连纤错误问题;
3、采用环回法定位,最终环回经过E站点时候告警不消失,问题定位到站点E;经客户同意,硬复位E站点支路板和线路板,告警不消失,业务依然中断。更换支路板和线路板,故障依旧;
4、仔细核查E站点的每一条业务,发现E站点组成SNCP保护的两块NS2线路板上有一条多余的交叉业务。该业务使工作通道的7-NS2单板和保护通道的12-NS2单板之间产生交叉连接,而没有将业务正确地从线路板交叉到支路板上。
5、删除该交叉连接后,告警消失,业务恢复正常。
根因
· 多余的交叉连接导致线路板和支路板之间不能正常通信,相当于使保护通道失效。
解决方案
删除错误的交叉连接,告警消失,业务恢复正常。
建议与总结
1、业务配置力求规范;
2、平时定期作倒换测试,及时发现问题。
某电网客户的OTN网,业务保护方式为ODUk_SNCP,业务类型为10GELAN,业务两端落地站点安徽和福建的工作业务单板2-NO2-2及34-NO2-2频繁闪报ODU_SNCP_STA_INDI, ODUk_SNCP备用通道路径状态频繁闪报SF,备用通道异常。
组网拓扑如下:
OSN 8800 T32的主机软件版本为:V100R007C02SPC200。
单板型号及软件版本为:TN53NQ2,3.50。
告警信息
ODU_SNCP_STA_INDI,告警参数为0x0c。
此告警是保护组状态指示告警,当具备以下条件时,会发生此告警:
1、当保护组工作通道或保护通道发生故障时;
2、当手动下发了外部倒换命令时;
3、当当前状态是在等待恢复状态时。
上报此告警的单板是当前工作通道所对应的单板的相应端口,在此案例中,为安徽的2-NO2-2端口及福建的34-NO2-2端口。
经检查,此两个端口所对应的保护通道路径状态为SF,保护通道故障导致此告警的上报。
处理过程
1、在安徽站,对21-NO2-7进行光口软件内环,ODUk_SNCP备用通道状态由SF变成正常。
2、在A站,对16-NQ2-3进行光口软件内环,ODUk_SNCP备用通道状态由SF变成正常。
3、在C站,对16-NQ2-3进行光口软件内环,ODUk_SNCP备用通道状态还是SF。此时基本判断是C站的问题,4-NQ2或16-NQ2单板故障,或其相应光模块故障,接下来进一步定位。
4、在C站,对4-NQ2-3做单向业务环回,安徽站相应的ODUk_SNCP备用通道状态由SF变为正常,那么基本判断C站的4-NQ2-3正常。
5、在C站,对16-NQ2-3进行光口外环,福建站相应的ODUk_SNCP备用通道状态由SF变成正常。
6、在C站,对16-NQ2-3做单向业务环回,福建站相应的ODUk_SNCP备用通道状态为SF不变,此时可判断为C站的16-NQ2-3口故障。可能是光模块故障,也可能是单板故障,现场更换16-NQ2-3的光模块,故障现场依旧,更换16-NQ2单板后,安徽和福建两端相应通道的ODUk_SNCP主备通道状态均恢复正常,ODU_SNCP_STA_INDI告警消失,问题解决。
根因
系统单波问题,排除主光路功率、色散配置等原因。那么备用通道单板闪报SF的可能原因主要有以下几个:
1、软件问题导致误报,经检验,不是误报,不属于软件版本问题。
2、备用通道尾纤故障,导致备用通道不可用,路径状态SF:经确认,备用通道光口连接正确,光功率正常,排除尾纤可能。
3、备用通道相关光口误码率过大:经查询安徽站备用通道21-NO2-7的性能,发现其FEC纠后误码率为10-6E,且A站的16-NQ2-3的FEC纠后误码率也达到10-6E,如下图所示:
确定FEC纠后误码率过大是导致SF的直接原因。
4、那么导致其FEC纠后误码率过大的原因可能相应通道的光模块故障或单板故障。要定位到哪个站的哪块单板或光模块有问题,最有效的方法就是逐段环回定位。环回的方式有光电口内外环回法和业务环回法。
5、由于对信号进行环回时,信号的路由将是原来的两倍,区段距离过长时将造成信噪比过低,由此导致大量FEC纠错。经测试,在C站16-NQ2-3光口内环回后,系统OSNR仍达到23dB以上,不会因此引入FEC纠错。所以可以使用环回法定位本问题,事实上最终是用业务环回法确定了C站的16-NQ2故障。
解决方案
建议与总结
1、 光电口外环回时,信号不经过单板芯片处理,不改变信号结构,直接把信号由入口环回到出口,这种环回方式只能测出尾纤或连接器是否正常,无法测试出单板是否故障。
2、 光电口内环回时,信号经过交叉芯片处理后再把信号送回相同单板的输出,可以测试出单板是否故障。
3、 有时单纯的光电口内环或外环还是无法精确定位到某块单板,此时可以针对可疑单板做条单向的业务的环回,就可精确定位到单板或光模块。
4、 事实上,这个案例中,第16-NQ2-4口也存在同样的问题,经与研发确认,TN53NQ2的第1、2口所用的是同一块业务处理芯片,3、4口所用的是同一块业务处理芯片,芯片故障导致整个单板第3、4口失效,而第1、2口却正常。
- 上一篇:纠错前误码率为0的情况下会偶尔出现不可纠误码计数 2018-5-19
- 下一篇:华为SDH传输设备RZ NRZ CRZ编码的原理与区别 2018-5-19