华为OSN3500设备N4EGS4单板不定期上报HARD_BAD告警
问题描述
华为OSN3500设备配置了4块EGS4单板与数通CE对接,承载3G业务。5、6板位EGS4配置为BPS保护;13、14板位EGS4配置为BPS保护,5、13板位为主用。某日客户反馈该站点主控板上报HARD_BAD告警,告警参数为0x0e 0xff 0xff 0xff 0xff,告警上报持续2-3小时后自动消失,同时有BPS状态事件上报。业务未受影响。
该站点使用N4EGS4单板多板ID配置为N3EGS4单板使用。主机版本为:5.21.18.50;EGS4单板版本为:1.14
告警信息
告警名称:HARD_BAD
告警参数:0x0e 0xff 0xff 0xff 0xff
处理过程
1、现场检查与CE连接的尾纤发现尾纤故障,更换尾纤后ETH-LOS告警消失,单板link灯亮。持续观察再未发现HARD_BAD告警上报。
2、该问题需要将N4EGS4单板软件升级到1.15及其以上版本彻底解决。
根因
1、从告警参数看应该是14板位EGS4单板故障导致,但如果是单板故障怎么会自动消失呢?现场尝试插拔单板、更换单板后故障依旧。排除单板故障因素。
2、因为13、14槽位单板是后期扩容上的单板,因此怀疑扩容时母板倒针。拔下单板仔细观察未发现倒针现象。
3、现场处理过程中发现现网使用的4块EGS4单板中只有14槽位单板上报ETH-LOS告警,并且单板的link灯不亮,因此怀疑是与该单板端口状态异常有关,但是端口异常怎么会导致主控上报HARD_BAD告警呢?
经过最终定位:
华为SSN4EGS4检测到端口linkdown时,会周期性设置8K线为2k状态值,但每次设2k状态前,软件错误地先置了低电平(低电平表示单板故障),并维持了50ms,在这50ms内,主机正好来检测hadbad状态,就会上报hadbad告警。另外,由于8K线状态发生变化,交叉板会因此上报BPS倒换状态事件。
因此该告警属于误报。
建议与总结
发现问题后多进行对比分析,找出故障单板与正常单板的不通之处,对于疑难杂症可以向二线专家及研发求助。
本章相关技术资料和SDH设备故障处理流程由深圳市鼎为网络技有限公司收集整理(www.szdingwei.net),转载请保留!本公司专注华为SDH光传输设备,SDH传输设备的销售。
- 上一篇:华为OSN3500设备N1EMS2板创建VB无法挂接端口 2018-12-11
- 下一篇:华为SDH光传输设备OSN3500子架功耗汇总 2018-12-10