华为SDH传输设备常见故障处理方法介绍
华为SDH故障
1.1 R_LOS
告警名称或故障现象:
R_LOS告警表示接收线路侧信号丢失(Receive loss of signal),为紧急告警。
告警产生原因:
1、断纤;
2、线路衰耗过大;
3、本板接收方向故障;
4、对端站发送部分故障,线路发送失效;
5、对端站交叉时钟板故障或不在位。
告警处理方法:
1、现场用光功率计检测告警单板的接收光功率是否正常。如果接收光功率正常,请转至步骤8。
2、检查光缆是否有故障,排除光缆故障后,查看告警是否排除。
3、清洁本站尾纤接头和线路板接收光口,查看告警是否排除。
4、检查本站的法兰盘和光衰减器是否连接正确,光衰减器的衰减值是否过大。正确使用法兰盘和光衰减器后,查看告警是否排除。
5、用光功率计检查对端站的发射光功率是否正常,如果发射光功率不正常,更换线路板。
6、如果发射光功率正常,清洁对端站的尾纤接头,查看告警是否排除。
7、检查对端站的法兰盘和光衰减器是否连接正确,光衰减器的衰减值是否过大。正确使用法兰盘和光衰减器后,查看告警是否排除。
8、更换本站上报告警的线路板,查看告警是否排除。
9、更换对端站的线路板,查看告警是否排除。
1.2 R_LOF、R_OOF
告警名称或故障现象:
R_LOF告警表示接收线路侧帧丢失(Receive loss of frame),为紧急告警。
告警产生原因:
1、接收信号衰减过大;
2、对端站发送信号无帧结构;
3、本板接收方向故障。
告警处理方法:
1、在网管上查看是否有高级别的R_LOS告警,优先处理这些高级别告警后,查看告警是否排除。
2、检测告警单板的接收光功率是否正常。如果接收光功率正常,请转至步骤9。如果收光不正常,让现场定位衰耗点在机房内还是在线路上,如果在线路上,转至步骤8。
3、清洁本站尾纤接头和线路板接收光口,查看告警是否排除。
4、检查本站的法兰盘和光衰减器是否连接正确,光衰减器的衰减值是否过大。正确使用法兰盘和光衰减器后,查看告警是否排除。
5、检查对端站的发射光功率是否正常,如果发射光功率不正常,更换线路板。
6、如果发射光功率正常,清洁对端站的尾纤接头,查看告警是否排除。
7、检查对端站的法兰盘和光衰减器是否连接正确,光衰减器的衰减值是否过大。正确使用法兰盘和光衰减器后,查看告警是否排除。
8、检查光缆是否有故障,排除光缆故障后,查看告警是否排除。
9、更换本站上报告警的线路板,查看告警是否排除。
10、 更换对端站的线路板,查看告警是否排除。
1.3 MS_AIS
告警名称或故障现象:
MS_AIS告警表示复用段告警指示(Multiplex section alarm indication),
告警产生原因:
1、对端站发送MS_AIS信号;
2、对端站时钟板故障;
3、本板接收部分故障。
告警处理方法:
1、在网管上查看对应的线路板是否有R_LOS、R_LOF告警,排除R_LOS、R_LOF告警后,查看告警是否排除。
2、检测告警单板的接收光功率是否正常。
3、用尾纤在本端和对端光口上作内环回,查看告警是否排除,如果不排除,继续下面步骤定位
4、复位、更换本站线路板,查看告警是否排除。
5、复位、更换对端站线路板,查看告警是否排除。
1.4 IN_PWR_LOW,IN_PWR_ABN,IN_PWR_FAIL
告警名称或故障现象:
光功率过低、过高、异常
告警产生原因:
1、 光纤连接器污损;
2、 尾纤弯曲度过大、损坏或老化;
3、 本站单板的接收光口加了过大的光衰减器;
4、 光信号在传输过程中衰减过大,没有得到足够的光放大补偿;
5、 对端站单板的发送光口添加了过大的光衰减器或者发送光模块故障,导致对端站单板发送光功率过低;
6、 本站单板故障。
告警处理方法:
1、 收光功率高的可以直接加衰耗来处理
2、 对收光功率低、异常的,利用OTDR测试光缆是否有异常衰耗
3、 使用光功率计测量本站单板的输入光功率是否在正常范围内;
4、 如果测量结果处于正常接收范围内,但上报的性能值不正确,可能是本站单板故障,更换故障单板;
5、 如果测量结果比较低,则检查光纤连接器,如果有污损,清洁或更换光纤连接器。
6、 如果告警没有清除,检查尾纤,如果尾纤弯曲度过大、损坏或者老化,调整尾纤或者更换尾纤。
7、 如果告警没有清除,查询对端站单板输出光功率性能值和相关告警,如果查询到的性能值不符合指标值,例如出现了TF告警,则是光模块故障,更换对端站单板。
1.5 B1_EXC、B1_SD、B2_EXC、B2_SD
告警名称或故障现象:
误码越限告警。即单板接收到的SDH帧信号质量劣化.
告警产生原因:
1、 接收信号衰减偏大,光纤或连接器不清洁;
2、 对端站发送部分故障;
3、 本站接收部分故障。
告警处理方法:
1、通过T2000查询光口的接收光功率是否在正常范围内。如果本站单板接收光功率过低,则按IN_PWR_LOW的处理步骤清除告警;
2、光功率正常仍有误码,让现场维护人员用尾纤对单板作自环,如果仍有误码,更换单板。如果误码消失,让对端设备的现场维护人员用尾纤对单板作自环,有误码则更换单板;
3、如果两端自环无误码,解除环回有误码,检查尾纤,如果尾纤弯曲度过大、损坏或者老化,调整尾纤或者更换尾纤。
1.6 MS_REI
告警名称或故障现象:
MS_REI告警表示复用段远端误码指示
告警产生原因:
对端站接收到B2误码
告警处理方法:
检查对端是否存在误码,按“告警B1_EXC、B1_SD、B2_EXC、B2_SD”处理方法处理。
1.7 TD、TF、LSR_WILL_DIE
告警名称或故障现象:
激光器故障
告警产生原因:
激光器故障
告警处理方法:
更换故障单板
1.8 NESTATE_INSTALL
告警名称或故障现象:
网元处于安装态,网元未配置数据告警。
告警产生原因:
网元处于安装态,网元未配置数据告警。
告警处理方法:
派室专业室处理
1.9 COMMUN_FAIL
告警名称或故障现象:
单板串口通信失效。
告警产生原因:
1、单板故障。
告警处理方法:
看该告警的参数,如果参数显示是本单板故障,可通过现场检查本单板运行灯、拔插单板、更换单板来排除故障;如果参数显示是其它单板故障,则对参数显示的单板检查运行灯、拔插单板、更换单板来排除故障;如果显示是网线问题,则需要对网线进行检查、更换。由于涉及参数,建议联系专业室或现场厂家督导处理。
1.10 FAN_FAIL
告警名称或故障现象:
风扇故障。
告警产生原因:
1、误报告警;
2、风扇失效。
告警处理方法:
1、让现场检查风扇运行情况,如果风扇有异常,更换故障风扇
1.11 APS_FAIL
告警名称或故障现象:
APS_FAIL告警表示保护倒换失败指示
告警产生原因:
1、节点的复用段保护参数设置错误;
2、节点的复用段保护参数丢失
告警处理方法:
请派单给专业室处理。
阿尔卡特SDH故障
2.1 RUP,RUM,ICP类告警处理
告警名称或故障现象:Replaceable Unit Problem机盘故障; Replaceable Unit Missed机盘不在位; Internal Communication Problem内部通信(控制信号)故障 ,相应的故障机盘报故障。
告警产生原因:
1. 原因1 RUM还可能是网管配置了板,但实际配插板
2. 原因2 机盘硬件故障
3. 原因3 ICP有可能是其它盘引起,如1660的矩阵、主控;1662的SYNTH16;1642的MB板
告警处理方法:
1. 原因1对于RUM首先核实是否现场每插板,如没插板可在网管去配置(对于有配置电路或作为时钟源的,需先删除这些配置),当然现场每插板,由配置了电路或时钟源需仔细核实是否是垃圾数据在删。
2. 原因2替换相应的故障盘
3. 对于ICP告警如替换故障盘后仍不消失,则需考虑可能是其它的矩阵、主控、SYNTH16、MB盘等引起。可先对这些怀疑的板做插拔(注意对业务和监控的影响, 一般主控盘插拔只影响监控;矩阵和SYNTH16均有保护,如无异常状态或第二处故障,插拔备用也不影响业务(要插拔当前的主用矩阵需先切换成备用角色再插拔,切换后等15分钟让它同步完再操作)),定位到故障板后替换故障板。
2.2 TD, URU, TF告警
告警名称或故障现象:设备光口或端口报TD(Transmitter Degraded), URU(Underlying Resource Unavailable), TF(Transmitter Failure)告警。
告警产生原因:
1. 原因1如有光模块的机盘,则可能是故障
2. 原因2机盘故障
告警处理方法:
1. 原因1替换光模块
2. 原因2替换机盘
2.3 LOS, LOF告警处理
告警名称或故障现象:LOS(Loss of signal;LOF(Loss Of Frame);MS-AIS;MS-RDI告警
告警产生原因:
1. 原因1光缆故障
2. 原因2对端设备停电或吊死(主要是接入设备)
3. 原因3显现硬件故障,相应光板报RUP、RUM、ICP、URU、TD、TF等告警
4. 原因4 隐性硬件故障
5. 原因5光模块吊死
告警处理方法:
1. 原因1对光及OTDR测试等排查光路故障,清除光缆故障(具体见光缆故障处理)
2. 原因2现场开电或环MB板
3. 原因3 显现硬件故障请替换相应的故障板
4. 原因4 当光路对光正常,无明显的硬件故障后,则可能是隐性硬件故障。处理方法如下:首先两边对应的端口做尾纤自环,看哪个光口自环后故障出现,则替换那块光板。做光口自环需注意如下问题:1:注意光功率,根据不同的光盘添加不同的衰减器,避免过载,光口参数参见\\10.244.9.52\网管组\学习资料(GPON PTN)\阿尔卡特培训资料/<阿卡光口参数.xls>;2:自环前测一下光功率,避免因故障尾纤、接头没插好等导致的误判断;3:对于涉及MS-SPRING环保护的光口,尾纤自环前必须对对于的光口做人工“force swith”操作,自环解除后必须清除强制倒换!这是因为“force swith”的级别大于“los of signal”,这样,自环后即使超过5分钟业务也不会倒回来,不会因此影响业务。
5. 原因5,对于阿尔卡特编号为8DG开头(L64.2E)光盘,当出现LOS告警后光模块可能吊死从而不发光,此时需现场插拔一下光模块。
2.4 光口EBER、DS告警处理
告警名称或故障现象:EBER(Excessive EBER性能越限);DS(Degraded Signal信号劣化),光口性能劣化。
告警产生原因:
1. 原因1光缆故障
2. 原因2 隐性硬件故障
告警处理方法:
1. 原因1对光及OTDR测试等排查光路故障,清除光缆故障(具体见光缆故障处理)
2. 原因2 当光路对光正常,则可能是隐性硬件故障。处理方法如下:首先两边对应的端口做尾纤自环,自环后查看光口性能,看那块光盘仍然有误码,则替换那块光板。做光口自环需注意如下问题:1:注意光功率,根据不同的光盘添加不同的衰减器,避免过载,光口参数参见\\10.244.9.52\网管组\学习资料(GPON PTN)\阿尔卡特培训资料/<阿卡光口参数.xls>;2:自环前测一下光功率,避免因故障尾纤、接头没插好等导致的误判断;3:对于涉及MS-SPRING环保护的光口,尾纤自环前必须对对于的光口做人工“force swith”操作,自环解除后必须清除强制倒换!这是因为“force swith”的级别大于“los of signal”,这样,自环后即使超过5分钟业务也不会倒回来,不会因此影响业务。
2.5 CSF告警处理
告警名称或故障现象:CSF(Communication signal failure);
告警产生原因:
1. 原因1相应两端光口的LAPD配置不匹配或一边没配置
2. 原因2相应的光板上有LOS,LOF,MS-RDI,MS-AIS,DS,EBER,RUP,RUM等其他告警
3. 原因3 1660主控板,1642 MB板,1662 6槽位的SYNTH16盘有故障
告警处理方法:
1. 原因1重新配置LAPD,配置原则是NETWORK必须与USER配对。
2. 原因2先处理其他故障以清除本告警。
3. 原因3插拔或重启相应的主控盘(一般都是报 CSF告警网元的对端设备有问题)或换主控板。
2.6 CPE告警处理
告警名称或故障现象:CPE(Communication Protocol Error通信协议错误告警)
告警产生原因:
1. 原因1配置问题
2. 原因2硬件问题
告警处理方法:
1. 原因1对于出告警的光口属MSP1+1保护组的,一般均是保护组两边网元的单、双向选项不一致,删除保护组重配即可。删保护组前,请核实主备用光口可用,否则可能影响业务。对于MSP-SPRING环保护光口,则升级给传输室处理。
2. 原因2如相应的光板有RUP,RUM等告警则先处理这些告警。否则升级给传输室处理
2.7 inside failuer告警处理
告警名称或故障现象:inside failure 内部总线告警
告警产生原因:
1. 原因1设备时钟处于自由震荡状态,无有效的参考时钟
2. 原因2业务板故障
3. 原因3矩阵故障
告警处理方法:
1. 原因1此时备用矩阵到所有业务盘均是红线,需先处理时钟故障
2. 原因2如果某业务盘到主备矩阵均是红线,则首先替换该业务盘。如果只是某块业务盘到一块矩阵有红线,也首先替换业务盘看故障是否消失。
3. 原因3如果某块矩阵到多个业务盘有红线,则替换该矩阵。
2.8 Cooling Fan Failure,HOUSE KEEPING告警处理
告警名称或故障现象:风扇告警告警
告警产生原因:
1. 原因1风扇硬件故障
2. 原因2风扇电源故障
告警处理方法:
1. 原因1替换故障风扇
2. 原因2查看风扇电源熔丝是否开启,清除电源故障。
2.9 Battery Failure,Fuse Failure告警处理
告警名称或故障现象:电源相关告警
告警产生原因:
1. 原因1外部电源故障
2. 原因2 CONGI盘故障
告警处理方法:
1. 原因1处理外部电源故障,确保列头柜有电,架顶电源开关打上,无短路想象
2. 原因2更换报障的CONGI盘。更换前先确认好报障CONGI板在架顶的对应电源开关,确认无误后先断开对应的开光,观察设备应无停电现象,然后拆除CONGI板上的线缆,换上新板并重新接上电缆,然后开启架顶对应的开关。
2.10 Loss Of Timing Sources;Frequency Offset告警处理
告警名称或故障现象:时钟源丢失,时钟频偏告警
告警产生原因:
1. 原因1外部2M参考时钟无信号
2. 原因2外部线路参考时钟无信号
3. 原因3矩阵故障
4. 原因4 1642 MB板故障
告警处理方法:
1. 原因1检查2M时钟线是否有故障,如时钟线确认无误则可能是接时钟的CONGI盘有故障,替换CONGI盘
2. 原因2检查线路时钟源光口有无LOS,LOF等告警,如有这些告警先处理;如无告警且光信号正常,则检查对端设备有没有发送时钟。
3. 原因3如怀疑是矩阵盘问题,升级给传输室处理
4. 原因4对于1642,排除原因2后 可先删除时钟配置并重新配置,查看告警是否消失,如不消失则需替换MB板。
2.11 Resource Isolation告警处理
告警名称或故障现象:网元脱管告警
告警产生原因:
1. 原因1设备停电
2. 原因2光缆双向中断
3. 原因3 LAPD配置问题
4. 原因4主控板故障
5. 原因5网管进程故障
告警处理方法:
5. 原因1设备重新加电
6. 原因2修复光缆,详见光缆故障处理
7. 原因3如LAPD配置有问题,一般相邻设备光口会报CSF告警,请修改LAPD配置。
8. 原因4插拔/重启主控盘
9. 原因5如果没有原因1-4的故障,能PING通网元,则应该是网管进程故障,重启对应的EML进程。
2.12 光口Unavailable性能监测异常告警处理
告警名称或故障现象:新能监测数据告警
告警产生原因:
1. 原因1光口有故障导致性能监测数据不正常
告警处理方法:
1. 原因1该告警是次生告警,处理光口相关故障后就不会再报该告警;如光口故障一时不能清除,可先关闭性能监测就不会再报了。但是,由于该告警是一种历史状态告警,即使清除原生故障不再报相关告警后,已报的告警条目也不会消失,此时可响应一下告警,然后munual purge(手工清除)该告警条目,该告警在网管就永久清除了。
2.13 网元不能更新告警处理
告警名称或故障现象:设备面板上告警状态栏全是虚的,此时设备的告警不能更新到网管,导致网管看到的告警是“假”告警,
告警产生原因:
2. 原因1网元在网管的状态不正常。
告警处理方法:
2. 原因1在1353NM上对stop supervision(停止监控),然后align up(重新监控),操作以后设备的面板图上告警状态栏应该变实,1353NM和1354RM的告警就可以更新了。在1354RM上搜索到网元后定位该网元属于哪个1353NM网管的方法:选中网元,点击1354RM窗口中图标是“放大镜”的工具按钮,弹出的窗口中有一个栏目中有neGroup=nxx(如210)第一位数就标明了1353NM网管(1是汇聚1网管,2是骨干网管,3是1678网管,4是汇聚2网管),整个数字就是EML进程号。
- 上一篇:华为SDH传输设备产品常用光板光功率一览表 2018-5-18
- 下一篇:PTN1900分组传输设备重要告警类型介绍 2018-5-18