OSN3500掉电重启后上报一系列告警处理
问题描述
OSN3500设备因机房停电掉电,3500恢复供电后主控,交叉,业务板上报一系列告警,导致业务不通。
主机版本:5.21.20.55,单配主控,双配交叉,故障时刻9槽位交叉板是主用。
告警信息
HARD_BAD:
7槽位EGS2 参数:0X01 0X00 0X06 0XFF 0XFF
13槽位EFS0 参数:0X01 0X00 0X06 0XFF 0XFF
18槽位GSCC 参数:0X02 0XFF 0XFF 0XFF 0XFF
9槽位SXCSA 参数:0X02 0X00 0X04 0XFF 0XFF
CHIP_FAIL:
9槽位SXCSA 参数:0X00 0X00 0X00 0X01 0X00
2槽位PQ1
OOL
9槽位SXCSA 参数:03 00 01 ff ff
10槽位SXCSA 参数:01 00 01 ff ff
Temp_over
9槽位SXCSA 参数:01 00 01 01 ff
HSC_UNAVAIL
9槽位SXCSA 参数:03 01 09 ff ff
Bus_err
10槽位SXCSA 参数:0d 01 03 01 ff
Syn_bad
10槽位SXCSA 参数:08 01 ff ff ff
处理过程
1、现场测试电压-54V,属于正常范围。
2、再次同步核对告警,AUX没有任何告警,结合现场单板指示灯状态正常,如果AUX异常单板是不能开工的。
3、网元上报告警比较多,使用命令行查询单板物理板和逻辑板状态正常,现场反馈板卡指示灯也是正常,考虑到业务是全阻,故主控和交叉板的故障可能性最大。通过分析单配主控的HARD_BAD告警,参数定位是2槽位PQ1异常,主控问题可能性不大。继续分析,发现9槽位(主用)交叉板告警较多。尝试网管倒换复位交叉板失败。
4、网管反馈10槽位交叉板主动变为主用状态,告警条数和参数无变化,网管硬复位9槽位后,告警条数和参数持续不变。
5、网管查询交叉板温度,命令行为(:cfg-get-bdtemp:9),温度是70度,已经超过温度上门限,故上报temp over正常,现场核实机房空调停电后未工作,机房温度较高。故怀疑9槽位单板工作异常,和温度有关。
5、建议现场拔出9槽位观察,同时协调好备件。现场反馈拔出9槽位等待几分钟后,所有告警逐渐消失,核实业务也恢复了。
6、为了准备定位是9槽位交叉板异常就是温度导致(之前单板持续上报temp over),将单板重新插入9槽位后,观察业务持续正常,查询交叉温度较之前低10度。
根因
定位是温度过高引起单板重新上电后工作异常,上报一系列告警。
建议与总结
定位清洗风扇防尘网,控制好机房温度和湿度。
OptiX OSN设备正常运行对温度和湿度的要求为:(温度、湿度的测量点,是指在机架前后没有保护板时测量,距地板以上1.5m和距机架前方0.4m处测量的数值。)
长期运行温度:0℃~45℃
短期运行温度(短期运行是指连续工作不超过96小时和每年累计不超过15天。):-5℃~55℃
长期运行湿度 5%~85%
短期运行湿度 5%~95%
同时为提升产品应用可靠性,机房应配备机房专用精密空调,将温度和湿度控制在下面范围:
空调控制温度:15-30℃。
空调控制湿度:40%-75%。
注意:空调禁止安装在设备上方,空调出风口应避免直接吹向设备,空调安装时应尽量远离窗户,以避免将透窗的湿气通过空调吹向设备。
本章相关技术资料和SDH设备故障处理流程由深圳市鼎为网络技有限公司提供(www.szdingwei.net),转载请保留!华为SDH光传输设备,SDH传输设备销售
- 上一篇:OSN3500 SF16E单板配合拉曼和BPA传输有纠错前误码 2018-11-25
- 下一篇:OSN3500 PL3单板承载单向广播业务出现异常性能事件 2018-11-25