Metro3000 ATM对接故障的定位方法与步骤
OptiX2500+(Metro3000)ATM对接故障的定位方法与步骤
一.常用定位方法
仪表测试法:通过ATM测试仪表来模拟实际业务,通过对发送的数据和接收的数据进行故障判断。
更改配置法:通过更改业务路径方向或是配置参数判断是设备故障还是参数设置错误。
环回法:通过逐段环回来定位故障位置,判断是设备内部原因还是外部原因;而后在故障位置针对故障现象或是告警信息通过更改配置法或是仪表测试法进行定位。
二.故障定位步骤
对接故障可以分为业务中断和数据丢包两种故障类型,业务中断故障处理流程图如图1-1所示,数据丢包故障处理流程如图1-2所示。
ATM的故障类型分为两种,一种是ATM业务完全中断,一种是ATM业务发生丢包现象,两种类型的故障处理思路不同。对于业务完全中断的故障,主要考虑光缆中断,或是设备掉电等外部原因,以及配置丢失单板失效等内部原因。对于业务丢包的故障,则考虑是否SDH性能劣化,或是ATM连接参数不符合业务配置要求。
步骤1判断是否是ATM业务完全中断,主要判断方法是观察业务两个终端设备是否完全没有接收到信元,是否存在LCD、OCD、VP_AIS等表示业务完全中断的告警,如果信元接收的数量过少也可以认为是完全中断。
步骤2根据先外部后内部的原则,先排除外部原因。如果相关的网元上出现R_LOS等SDH层面的告警,说明肯定是SDH层的业务中断。如果是VP_AIS等,那么在该连接路径上也有可能有SDH层的业务中断。沿该路径方向查询告警,如果查到有可能影响业务的SDH层告警的站点,说明业务在该站点上发生中断,一般而言引起业务中断的外部原因大部分和光路故障有关,引起光路中断的可能原因如下:
光纤光缆连接异常:检查是否光纤连接错误或是尾纤连接不到位。
光功率异常:一般光功率高于过载光功率或是低于灵敏度时会引起较大的误码甚至业务完全中断。
光接口板与光缆不匹配:ATM业务接入板的光模块有两种类型,一种为多模,另一种为单模;对于多模的光接口(一般为黑色),只能使用多模光纤(尾纤颜色为橙红色)与之对接,如果使用单模尾纤(尾纤颜色为黄色)与之对接,业务不通。对于单模光口(一般为蓝色),一般使用单模尾纤与之对接,在短距离内也可以使用多模尾纤。
该问题一般多发生在新增单板的局点,尾纤使用容易搞错。
步骤3如果在线路光板上上报HP_TIM或是HP_SLM等告警,说明光板的J1或是C2字节发生失配,可能引起业务中断。
1、对于HP_TIM告警,说明检测到J1字节与预定值不同,上报高阶通道追踪识别符失配(HP_TIM)告警,J1字节失配在OptiX2500+(Metro3000)设备上默认不会中断业务,但是可能导致对接设备业务中断。故障原因可能是本站应收通道追踪字节与对端站应发通道追踪字节配置不一致或者是业务配置错误。 处理办法是修改本端相应通道的应收J1字节与对端站的应发J1字节一致或是将对端的应发J1字节与本端站的应收J1字节一致。
2、HP_SLM告警为高阶通道信号标记失配告警,为通道中检测到的C2字节与期望的C2字节值不同,导致上告HP_SLM告警,C2字节失配在OptiX2500+(Metro3000)设备上默认不会中断业务,但是可能导致对接设备业务中断。故障原因可能为本站应收信号标记与对端站应发信号标记配置不一致或是业务配置时将C2字节配置错误。处理办法是修改本端相应通道的应收C2字节与对端站的应发C2字节一致或是将对端的应发C2字节与本端站的应收C2字节设成一致。
步骤4还有两个告警是可以肯定业务中断的,那就是LCD和OCD告警。LCD和OCD告警分别为ATM信元定界丢失和信元定界失步告警,说明该总线上没有收到ATM信元或者无法正常接收ATM信元,ATM业务中断。
LCD和OCD告警类似于光板上的LOS和LOF告警。通常在光路上有LOS或LOF告警的时候,相应的ATM处理板的总线上也会同时出现LCD或OCD告警。还有当业务配置错误时,该总线不能正确的接收到ATM信元,那么也会出现LCD告警。处理方法就是先检查光路上是否有LOS或是连接错误,在排除光路的连接错误的前提下,检查业务路径上的连接配置,先利用逐段环回法定位出故障站点,然后再查询故障站点上的业务配置情况,尤其是穿通的连接配置是否正确。
配置错误包括SDH业务配置错误,此时会伴随着LCD告警出现。检查时注意SDH的VC4业务是否与ATM处理板的相应总线建立正确的业务关系。对于中间站点的无收敛的穿通,该穿通的SDH业务是否是VC4级别的穿通。如果不是VC4级别的穿通,则须将中间站点将该穿通业务改为VC4级别的穿通业务。
还有就是ATM的连接配置错误,包括VPI/VCI值设置错误;连接建立错误,比如源宿端口的选择错误等等。
端口一旦被环回,那么业务传送肯定会中断,而且由于有信元的正常接收,端口上不会出现LCD等告警,只能通过对各个端口的环回状态进行故障排除,对被环回的端口解除环回。
步骤7如果通过上述方法都无法排除故障,可以尝试通过复位单板重新将单板初始化,如果业务仍旧不能恢复,请及时联系华为公司提供技术支持。
步骤1对于ATM业务数据产生丢包的故障,主要表现为业务时断时续,数据业务有丢包情况发生。对于数据业务发生丢包的原因基本上是该信元检测出错误后被丢弃造成的,引起误码的原因主要有SDH侧的性能劣化、光缆类型与光模块类型不匹配导致误码、光功率异常导致误码。
步骤2 ATM业务数据产生丢包,至少说明业务连接通道是通的,各个接口间的连接还是正确的,只是性能产生的劣化。依旧根据先外部后内部,先线路后支路(此处将ATM业务近似地看作支路业务)的原则进行处理。先查询SDH侧的性能事件,观察光路上是否有误码出现,如果有误码出现,处理方式与SDH设备的处理方法相同。
步骤3 SDH设备对时钟要求比较严格,因此如果设备与系统的时钟不同步的话,那么将会导致业务信号的劣化甚至是失效。同样的,SDH设备的信号劣化会导致ATM信号的劣化。如果设备出现时钟不同步的情况对该网元上的其他业务也会产生影响,处理方法同SDH设备的处理。
步骤4对故障站点的定位,我们可以通过逐段环回法,同时观察业务端点的性能数据,看是否有错误信元计数,找出故障点。找出故障点后,先检查故障点的配置,如果配置无误且复位单板不能解决的情况下,可以考虑尝试更换故障点单板或是联系华为公司提供技术支持。
步骤5对本网元的配置检查,主要检查使用的流量是否正确,对于不通的业务类型所能提供的QoS服务质量也不同,因此需要根据具体的使用需求来确认所使用的流量配置是否正确。比如流量设置中的PCR值是否够大等等,可以尝试修改流量参数来定位排除故障。
步骤6对于上述方法都无法解决的情况,请及时联系华为公司提供技术支持。
- 上一篇:Metro3000 ATM业务配置基本原则 2018-5-17
- 下一篇:Metro3000 ATM接口规范与以太网接口规范 2018-5-17