Metro1000业务中断问题出现的原因与处理方法
OptiX 155/622H(Metro1000)业务中断问题出现的原因与处理方法
一.常见原因分析
1.外部原因
1)供电电源故障,如设备掉电、供电电压过低等
2)交换机故障
3)光纤、电缆故障,如光纤性能劣化、损耗过高,光纤折断;中继电缆脱落、损断或接触不良等。
2.人为原因
1)误操作设置了光路或支路通道的环回
2)误操作更改、删除了配置数据
3.设备本身故障
1)单板失效或性能劣化
二.常用处理方法
1.告警分析法
2.逐段环回法
3.替换法
三.故障处理步骤
若通过观察网管告警数据或设备告警指示灯一时无法定位故障站点,则可直接按自环法进行处理。
1.设备维护人员
步骤1检查各指示灯状态
若绿灯运行灯快闪每秒钟亮灭5次,则反馈网管维护人员处理,让其重下配置数据。
步骤2观察线路板红色告警灯情况
若某站线路板的红灯亮,表示线路板没有接收到光信号。
注意:由于设备维护中的部分操作会导致业务中断,甚至会造成全网业务中断,因此我们建议在进行单站设备维护前,设备维护人员最好与中心站网管维护人员及时进行沟通,双方配合进行。避免由于维护单站而影响全网业务
2.网管维护人员
步骤1检查各站登录是否正常,各站光接口板上是否有危急告警。
若某站登录不上,且该站相邻站点光接口板上有R_LOS等危急告警,则可能是该站掉电或与该站相连的光纤或线路板故障。
若光接口板上无告警,却仍然登录不上,则可能是由于上报信息量太大导致ECC通道阻塞,这时可复位相邻站主控单元,如果仍然无效,则通知设备维护人员检查、更换本站和相邻站的SCB板和线路板来定位、排除故障。
需要注意的是在复用段保护环中,更换SCB板和线路板都会引起其所在网元的复用段协议停止。因此更换单板时,应保证全网处于正常态。更换SCB板后,还需重新下发该网元的配置数据。
更换线路板和重新下发配置数据,都会导致业务瞬间中断,因此应选在业务量较少时进行,比如在夜晚进行。
步骤2如果在第一步定位不了原因,则需要检查业务中断站点支路板上业务通道,查看是否有T_ALOS告警。
若有T_ALOS告警,则首先考虑是否是交换机故障或中继电缆故障等设备外部问题。通知单站设备维护人员在DDF侧或设备单板侧作电口内环回操作,从网管上查看告警是否消失,以便定位故障原因是在传输设备内部还是属于设备外部问题。若是外部问题,环回后告警应消失,查找、排除外部故障就可以解决问题;反之,环回后告警不会消失。
如果从以上方法定位到问题出在传输设备内部,按照下面第三步进行处理。
步骤3逐段环回
在业务中断通道的一端网元挂表监测业务的通断。沿业务方向对各站线路板逐段环回,观察测试仪表上业务的通断情况。若环回后,仪表显示业务正常,则说明该段线路没有问题;若环回后,仪表仍显示业务中断,则说明该段线路有故障。
当通过观察告警事件无法定位故障点时,则可用环回法进行故障定位。下面分别举例说明链形组网、单向通道保护环两种不同组网业务中断故障的处理。
无保护链形组网
(1)组网配置
图4-1无保护链形组网示意图
系统组网如REF _Ref170204 \r \h图4-1所示,为四个站组成的一条无保护链,1号站为网管中心站,接网管终端设备,业务方式为集中型业务,每个站均与1号站有2M业务,占用第1个VC-4。
(2)故障现象
1号站和4号站的2M业务中断,其它站业务正常。全部站点都可登录,线路板无告警。
(3)处理步骤
步骤1在网管中观察检测到的告警性能信息,并加以分析,用以定位故障原因。若通过观察网管告警数据或设备告警指示灯一时无法定位故障站点,则进入第二步,采用自环法定位故障。
步骤2在1号站用2M误码测试仪,监测1号站与4号站之间业务中断的2M通道。此时,误码测试仪指示业务中断。通过网管对4号站的支路板作软件内环回。若仪表显示业务正常,则说明是4号站有问题,进入第三步。若仪表显示业务中断,则说明传输设备有问题,进入第四步。
步骤3在4号站对应支路板的接口处或DDF配线架上,对相应通道再作一个对传输设备的硬件内环回,若此时仪表仍显示业务正常,则说明传输设备没有问题。需排除交换机或中继电缆的问题。若业务不正常,则可能是支路板的问题,此后可通过换板定位故障点。
步骤4依次对1号站西向线路板、2号站东向线路板、3号站东向线路板作软件内环回。若在哪个站环回业务不通,则说明该站故障或前一站线路板有故障。即若环回1号站业务不通,则说明故障点在1号站;若环回3号站业务正常,则说明可能是4号站的问题,也可能是3号站东向线路板有问题。
下面以3号站环回不通为例讲解故障的进一步处理。
首先应明确,若软件环回2号站东向线路板业务正常,环回3号站东向线路板业务不通,则可能3号站有故障,也可能是2号站的东向线路板或者两站间的光路(包括光缆和光接头)有故障。
如果2号站有维护人员配合,可在该站将其东向线路板作硬件内环回,然后查看业务是否正常,如果不正常,则可断定故障出在2号站的东向线路板上;如果业务正常,则可将问题出在2号站 的可能性完全排除,这时再通过使用光纤替换法,检测2号站与3号站之间的光路,排除光路出故障的可能性。
对于2号站东向光口的内环回,若所中断的业务不在第一个VC-4通道内,则可以通过网管对3号站西向线路板再作软件外环回。或者如果2号站与3号站之间距离不算太远,光信号往返一次后的光功率依然大于2号站东向光接口板的接收灵敏度,则甚至可以把对2号站东向光接口板的硬件内环回拿到3号站的ODF上来作。
通过以上两种中任意一种环回方法,可以同时将两站之间的光路和2号站东向光接口板都测量到了。
若作了以上环回后,测试业务正常,则可断定故障点在3号站了。
要注意光接口板硬件自环时,接收光功率既不能低于光接口板接收灵敏度,也不能过载哟!
通过上面的检查,我们已经可以将故障定位在单站了。如果是光路问题,可通知站点的维护人员更换一根光纤或光缆即可。若问题在2号站或3号站,则需中心站设备维护人员携带备板,赶到2号站或3号站现场,进一步排除故障。
携带的备板应包括线路板、SCB板。
步骤5若问题定位在2号站东向光接口板,则更换2号站此光接口板就可以解决故障。
若问题定位在3号站,则依次更换3号站的东向、西向线路板、SCB板,直至排除故障。
步骤6若通过上述步骤,仍不能排除故障,则说明问题很复杂,请联系华为公司。
通道环
(1)组网配置
图4-2通道保护环
系统组网如REF _Ref170232 \r \h图4-2所示,为四个站组成的一个通道保护环,1号站为网管中心站,业务方式为集中型业务,即每个站均与1号站有2M业务。
(2)故障现象
1号站与4号站的业务中断,其它业务正常,且四站均可登录;线路无告警。
(3)处理步骤
步骤1从网管中获取告警、性能信息,加以分析,判断故障原因。若通过观察网管告警数据或设备告警指示灯一时无法定位故障站点,则进入第二步,采用自环法定位故障。
步骤2拔掉1号站西向光纤,则REF _Ref170232 \r \h图4-2所示的通道环将变成与REF _Ref170204 \r \h图4-1相同的链形组网。这样改造后,即可按处理链形组网的方法,进行处理。
业务已中断时,通道环已成为一个断环,则可直接按链形组网的处理方法进行处理。
步骤3恢复1号站西向光纤,再拔掉1号站东向光纤。按与第二步相同的方法进行处理。
故障排除过程中的操作过程同上例链形组网的方法。但故障排除后一定要恢复其环形组网。
- 上一篇:Metro1000设备T_ALOS告警处理方法 2018-5-17
- 下一篇: Metro1000误码故障 2018-5-17