OSN1500 SSN2EGS2上报commu_fail告警
问题描述
SSN2EGS2单板在OSN1500网元上正常运行两个多月后,出现反复上报COMMU_FAIL、LP_SLM_VC12、ETH_LOS告警并且业务中断的问题。在现网进行了软/硬复位单板、拔插单板操作,均无法解决问题。
告警信息
COMMU_FAIL、LP_SLM_VC12、ETH_LOS。
处理过程
1、更换单板为SSN1EGS4等数据单板,SSN1EGS4上软件做了防协议报文冲击的保护机制,所以更换单板后问题得到解决。
2、SSN2EGS2单板软件升级到5.51版本以上。
根因
分析单板的黑匣子,发现debugbuf.log中记录了大量单板软复位的记录,可见的确是不断的软复位造成了单板反复上报COMMU_FAIL告警,这个告警表示主控与数据板的以太通讯通道发生了中断。由于SSN2EGS2这个单板比较特殊,软复位和硬复位的效果一样,都会中断业务。所以,现网EGS2单板发生反复复位故障时,业务是会反复中断的。而反复上报的LP_SLM_VC12、ETH_LOS告警,也是单板反复软复位所导致。
从debugbuf.log黑匣子记录来看,是单板收到了大量协议报文,导致单板CPU占用率过高,从而发生复位。SSN2EGS2单板所采用的5.50版本软件没有做防协议报文冲击的保护机制,当网络上可能因广播风暴产生大量协议报文时,CPU会无法承载负荷而复位,从黑匣子记录也可看到软狗复位时处理协议报文的进程占到了高达47.63%的CPU资源。所以重新拔插单板后,协议报文冲击未解除,EGS2单板依旧会发生复位问题。
建议与总结
无
- 上一篇:OSN1500 SSRR1CXLLN无法直接升级到5.37.13.61 2018-5-21
- 下一篇:OSN1500SSR2AUX故障导致部分单板上报communfail 2018-5-21