Optix OSN3500数据单板软件问题导致部分光口闪报LSE-WILL-DIE告警
问题描述
客户现网部署的osn3500设备,px1单板和peg16单板多次闪报lsr_will_die告警,持续时间20秒左右,经过修改偏执电流门限值后,现网仍有部分光口上报此告警,引起客户高度重视,要求给出根因分析和彻底解决方案。
主机版本:v200r011c00spc200
数据单板:ssn1peg16 、 ssn1pex1
告警信息
lsr_will_die
处理过程
临时解决方案:在网管上屏蔽ge和10ge端口的lsr_will_die告警,将告警门限设置为900,打开网管lsr_bcm_alm告警监视,通过观察lsr_bcm_alm告警来判断光模块是否异常。
彻底解决方案:需要研发出补丁或后续的版本来解决浮点运算异常的问题
根因
ler_will_die告警是偏执电流超过设置的门限值上报的告警,此告警指示激光器寿命即将终止,告警的出现不表示光模块立即失效,而还能继续使用一段时间,在这段时间内要做好更换光模块的准备。
结合现网的现象和一线采集的数据分析,多个站点同时上报该告警,并且光模块的使用时间不超多2年(光模块的寿命一般在3~5年),还有此告警是闪报,所以初步推断多个光模块同时坏掉的可能性并不大,因此从单板软件和硬件两方着手来定位问题。
硬件方面:
1、分析单板制造信息,发现部分光模块不是数据单板所支持的,并且同一单板使用了很多不同厂商的光模块,这存在一定的隐患,但并不是问题的关键,因为出问题的光模块在其他站点也有正常工作的。
2、在实验室搭建镜像环境,重现告警。
3、实验室完成温箱试验,观察温度和告警之间的关系。
软件方面:
1、软件研发排查代码,lsr_will_die告警与lsr_bcm_alm告警理论上会成对出现,虽然现网将lsr_bcm_alm屏蔽掉,但可以通过navigator来查看此告警的。
2、协调一线,在现网上将偏置电流告警高门限设置为1,经过25秒左右上报告警,发现偏置电流高告警和激光器寿命即将终结告警都是成对出现,但在现网的以前告警中日志中,并没有发现该两个告警是成对出现,两个告警在判断处的唯一差异在于多了浮点运算,因此浮点运嫌疑非常大。
3、通过实验室模拟,发现和分析结论一致。因此可以判断lsr_will_die告警是由于浮点运算异常而导致的告警误报,以前其他局点也出现过浮点运算异常而导致的power_abnormal告警异常上报问题,在实验室挂临时版本打印浮点运算结果,也出现了浮点运算结果异常。
到此为止,可以确定lsr_will_die告警是由于浮点运算异常导致的误报。
建议与总结
数据单板光口lsr_will_die告警是参考ptn产品设计的,传统mstp产品数据单板是没有此告警的,所以我们在设计告警的时候应该注意告警的适用性以及告警的敏感度。尤其海外一些敏感的客户看到此告警非常重视,要求给出根因,给我们带来不必要的麻烦。建议修改该告警名称或者直接屏蔽此告警。
另外,对于告警门限值的设置,一定要有个统一有效的标准,最好不要轻易修改门限值,不然很容易引起客户的反感和质疑。
本章相关技术资料和SDH设备故障处理流程由深圳市鼎为网络技有限公司收集整理(www.szdingwei.net),转载请保留!本公司专注华为SDH光传输设备,SDH传输设备的销售。
- 上一篇:OSN3500 N2PQ1单板端口环回后不能自动解环回 2018-12-6
- 下一篇:华为SDH设备OSN3500主机版本支持千兆电口导致STATE灯亮红灯 2018-12-6