OSN3500传输设备批量备份但备份失败导致网元进入状态忙
问题描述
本地员工在现网处理华为OSN3500设备17号主主控GSCC报COMMUN_FAIL预警的过程中,按指引删除了主主控的告警反转数据库alminv.dbf后指导要求复位。但本地员工没有直接下发reset命令,而是按常规操作先复位了备主控,然后主备倒换,然后再复位主主控,结果出现近似网元复位的状态,Navigator间歇性无法登录网元,网管17号GSCC上报COMMUN_FAIL,18号GSCC上报SYNC_FAIL,网元侧下发其他命令返回主机状态忙:failed! cmd:0x301a error:0x9127 NE IS BUSY : HBU
预警参考:Precaution About Repeated Reset of the SCC board Due to Enabling of the Alarm Reversion Function for Boards on the Extended Subrack of the OptiX OSN 3500-20090727-A.doc
告警信息
COMMUN_FAIL;
SYNC_FAIL;
failed! cmd:0x301a error:0x9127 NE IS BUSY : HBU ;
网元间歇性无法登录。
处理过程
定位过程:
1、 登录网元,使用:errlog,检查复位日志,发现没有反复复位现象。
2、用:cfg-get-phy 持续查询5分钟,发现两个GSCC物理板位一直存在,确认主备主控没有在反复复位。
3、检查告警反转数据库,显示如下,存在大量Ox33的BID号,说明告警数据库没有成功清除。
#9-80:szhw [Kadawatha ][][2011-11-03 17:37:42+05:30]>
:dbms-query:"alminv.dbf",drdb
ALMINV.DBF
record num BID OPPORT PATH ALLOW
1 36 01 0034 01
2 36 01 0039 01
3 34 01 001c 01
4. 查询:hbu-get-sync-enable,返回成功,说明没有禁止同步。
5. 查询:hbu-get-backup-info同步状态,显示状态在0x00000000和0x00000002之间反复切换,但从未到达状态3。
原因分析:
1、在清除17号主主控的数据库后,18号备主控的告警反转数据仍然存在(由于某种原因没有实时更新),从而导致在主备倒换的过程中,17号主控从新的主主控18号GSCC上拷贝了数据(带有告警反转数据库),因此倒换后17号主控再次上报COMMUN_FAIL.
2、在倒换的过程中,由于两个主控的数据库信息不一致冲突(同时17号主控上报COMMUN_FAIL),导致两个主控一直处于批量备份的状态无法成功,系统一直处于该状态处理,因此网元进入忙态。
3、另一方面,也有可能是告警反转数据库再次触发预警。
结论:
需要中断批量备份,重新清除一次告警数据库,再复位,将主备主控进行同步。但是由于网元处于状态忙,相关命令都无法下发。均提示:failed! cmd:0x301a error:0x9127 NE IS BUSY : HBU ;
采取措施:
经过咨询研发后,使用:sm-set-nebusy:0,0,0,0,none命令解除网元状态忙,重新按预警指执行一遍清楚告警反转数据库,软复位主主控,人工再触发一次批量备份(用:hbu-go-batch)检查批量备份状态正常后,问题解决。
根因
1、网元间歇性无法登录,可能是主控在反复复位导致。
2、17号GSCC仍上报COMMUN_FAIL,说明之前删除的告警反转数据库alminv.dbf没有起作用,17号GSCC可能还存在告警反转数据。
3、18号GSCC上报SYNC_FAIL,说明主备主控同步失败,即批量备份失败。有可能是由于主备数据不一致导致冲突,在同步的过程中无法成功,进而导致了网元进入忙态。
建议与总结
1、 关于主备主控倒换和数据库同步备份。
主备主控在正常情况下,数据是实时同步或定时备份的,即主主控数据库(如告警数据等)发生了变化,备主控都会从主主控读取和拷贝数据。
当下发主备倒换命令时的机理是:先倒换,再触发批量备份,备主控同步主主控数据,即出现了原先的主主控从原来的备主控上读取数据进行同步。此时,若备主控的数据不完整或者不正确,就会出现问题,有可能导致网元数据库的错误的风险。
但咨询研发后,确认无法更改批量备份和倒换的次序。这主要是因为主控倒换就是硬倒换,没有做到由于软件问题倒换,如拔插单板,主控硬件故障等,因此都是先倒换再批量备份。同时主备同步是接近实时的,也不能完全做到绝对实时,因此确实存在这样的风险,只是风险的概率低。
因此,在进行主备倒换之前,建议先用:hbu-get-backup-info检查同步状态,确保状态在0x00000003方下发命令。但目前U2000网管上并没有这样的接口进行查询,建议网管接口可以增加。
2、关于预警指导
建议在预警指导中完善执行命令,对主备倒换增加说明,或增加人工触发批量备份的步骤,保证删除主主控数据库后不会出现这种问题。处理过程中出现硬件问题或其他问题导致倒换的可能性还是存在的。
同时建议不要在预警处理过程中使用:reset命令,一线一般不敢在现网直接执行该命令。
3、关于解除网元状态忙命令
该命令不能在现网网元随便用,使用前需要咨询研发,否则可能出现解除了网元正常的处理进程从而引发其他不可控的问题。
本次问题的处理过程中,其实应该先尝试下面的命令解除批量备份状态忙,而非直接解除所有状态忙。
:sm-set-nebusy:0,40,0x9127;// 解除批量备份状态忙
本章相关技术资料和SDH设备故障处理流程由深圳市鼎为网络技有限公司收集整理(www.szdingwei.net),转载请保留!本公司专注华为SDH光传输设备,SDH传输设备的销售。
- 上一篇:华为SDH设备OSN3500主机版本支持千兆电口导致STATE灯亮红灯 2018-12-6
- 下一篇:SDH OSN3500设备EGT2单板在特定槽位上报T_LOSEX告警 2018-12-6