由于数据库备份开关被关闭OSN3500升级后业务中断问题
问题描述
代表处M运营商一个OptiX OSN 3500设备升级后,两个线路板SLD64状态异常,约XXX个无线GSM站点业务中断,影响约X用户。问题出现后尝试使用升级前备份的网元数据库恢复,但是恢复失败,业务中断。
处理过程
1、升级后发现slot8和slot11的SLD64单板离线,相关业务中断;
2、客户维护人员发现slot8和slot11的N4SLD64物理单板从升级之前的N1SLD64逻辑板变成了N2SL64逻辑板,修改逻辑单板从N2SL64到N1SLD64;
3、修改逻辑板类型后,单板上线但是业务不恢复;
4、问题知会到本地中方,以及TAC,华为中方开始介入处理;
5、经过和机关GTAC沟通,决定执行回滚;
6、移走升级完的两个R10版本GSCC,插入R8版本的GSCC,开始使用升级之前备份的数据库恢复;
7、恢复超时,恢复失败,业务仍然中断(DC密码错误,导致超时);
8、放弃从数据库恢复,GTAC根据升级前备份的数据库制作交叉配置脚本,本地命令行下发;
9、下发成功,但是业务仍然全部中断,发现升级之前备份的数据库有问题,无法使用;
10、开始寻找最近备份的有效数据,使用11月份巡检收集到的业务配置,制作交叉配置脚本;
11、执行脚本,业务恢复。
根因
主控单板GSCC内部DRDB和FDB之间的同步开关被异常关闭,导致FDB中存的数据是历史配置的,和当前运行的业务不符。由此导致两个问题:
1、升级之后主控复位,复位之后主控重新下发数据,下发的是FDB中的旧数据,和当前逻辑板位配置以及业务配置都是不符的,因此升级上报成功但是业务中断;
2、网元数据备份的时候是从FDB备份的,因此升级前使用DC备份的数据也是有问题的,无法基于这个数据库进行恢复,导致回滚失败,造成业务中断。
数据库备份功能默认enable,故障网元之前巡检发现该网元是disable,未修复。
#9-48:szhw [48-***_OSN-4 ][][2014-12-12 14:31:50+06:00]>
:dbms-get-autobackup
DBMS-AUTO-BACKUP : disable
#9-48:szhw [48-***_OSN-4 ][][2014-12-12 14:31:52+06:00]>
:dbms-get-cyclebackup
CYCLE-BACKUP-SWITCH : disable
#9-48:szhw [48-***_OSN-4 ][][2014-12-12 14:31:53+06:00]>
:mml-get-evtflag
CMD EVT FLAG: disable
解决方案
找到升级之前最近的有效的网元数据库备份文件,或者升级前的网管备份脚本,据此制作业务恢复脚本,重新删除和配置全网交叉。
建议与总结
1、定时巡检,对于巡检中发现的异常及时跟踪解决,即使客户不主动要求解决,也要主动推动解决;
2、升级动作严格参考升级指导书,尤其是对于不理解的步骤,也要严格执行,因为很可能就是对某个潜在隐患的关键过滤措施;
3、加强对产品知识的理解,分清楚网元数据备份(从FDB备份)、网管数据上载(从DRDB上载)、网管脚本备份(DRDB动态有效数据)、网管上同步入口(备份网元数据到SCC)这几个概念的含义,故障时及时找到有效数据。
4、升级严格遵守流程做各种备份,以备万一之需。
本章相关技术资料和SDH设备故障处理流程由深圳市鼎为网络技有限公司提供(www.szdingwei.net),转载请保留!华为SDH光传输设备,SDH传输设备销售
- 上一篇:OSN3500设备新增SNCP业务提示SNCP保护组ID非法错误码为38686 2018-11-25
- 下一篇:PTN960 MPLS_PW_MISMERGE告警处理方法 2018-11-25