OSN3500 N2EGS2报BD_STATUS COMMUN_FAIL告警
问题描述
一OSN7500设备30槽位EGS2板每间隔约半小时同时瞬报一次BD_STATUS、COMMUN_FAIL告警,单板出现复位,业务出现瞬断。
告警信息
EGS2板上报约没半小时瞬报一次BD_STATUS、COMMUN_FAIL告警。
处理过程
1、单板上报BD_STATUS告警,怀疑为单板故障,更换单板后约半小时故障重新。
2、怀疑为槽位问题,对单板更换槽位,但是更换后故障依然。
3、怀疑为以太网接入业务存在环回或异常,采集数据进行分析,通过命令行:mon-show-cpu:30命令返回值中可以看出单板CPU占用率非常高,其中tRstpBpdu任务CPU占用率高达77%,而单板空闲任务VIDL CPU占用率为0%,导致单板清狗任务无法执行,致使单板发生软狗复位,上报COMMON_FAIL告警,同时造成业务中断。
TASK-NAME SWITCH-COUNT MIN-TIME MAX-TIME RECENT-TIME TOTAL-TIME(us) PERCENT
tRstpBpdu 1181 74 10178 7556 10439226 77.82%
VIDL 0 0 0 0 0 0.00%
4、对以太网输入口业务进行归类,将存在以太网环路或有协议报文的业务割接至其他单板端口上后,告警不再上报,问题解决。后期将EGS2板单板软件统一升级为5.53后问题彻底解决。
根因
1、单板故障。
2、槽位故障。
3、接入业务存在异常。
建议与总结
EGS2板收到外界发送的大量生成树协议报文后,会导致单板CPU占用率过高,单板发生软狗复位,造成这种故障一般有两种情况:
1、外部网络往单板发送大量生成树协议报文。
2、外部网络往单板发送少量生成树协议报文,但是整个网络存在物理环路。
EGS2板在5.53版本及以版本对协议报文进行限速操作,可以从根本解决该问题。
- 上一篇:OSN3500 SSN4SL64 主控温度性能异常 2018-5-22
- 下一篇:Optix OSN7500 以太网业务板无法更改端口模式为三层 2018-5-22