OSN8800波分设备故障导致MSP倒换异常
问题描述
某客户大客户环211-212-213-214-215-216组成2.5G双向复用段,其中211与212是10G设备其他站点为2500+设备、211与212之间是裸纤(即实际的光缆连接)相连,而其他站点之间都是通过Metro6100设备的波道进行组网。
某日,用户211与212之间光缆断,而216站点9槽位S16(连接215安化10槽位S16)无规律的瞬报R_LOS或者R_LOF导致复用段倒换异常,业务中断。211站点的15槽位SL16A偶尔也跟随216站点9槽位S16同时上报R_LOS或R_LOF。
在故障处理过程中,一线工程师在全网复用段协议正常的情况下,通过关闭211站点的16或者15槽位的SL16A的激光器可以每次重现故障。全网复用段协议停止以后,通过以上操作不能重现故障。对换211、215、216的东西向光口板,故障不消失。对换215、216的交叉板故障不消失。
处理过程
以下是8月24号至8月31号的具体定位过程:
1、由于在全网协议停止的情况下故障不重现,说明故障只与倒换动作(即页面的切换)相关,为了证明这一点,我们对211站点的东西向分别进行复用段练习倒换和强制倒换,在练习倒换情况下,故障不重现,在强制倒换情况下,故障重现。从这一点可以看出故障确实是由于复用段倒换(页面切换)引起的,与协议本身没有关系。
2、由于光板上报RLOS有两种情况,一是光口没有收到光,二是光口收到白光。为了找出究竟是哪一种原因引发故障,所以,在故障重现时,利用光功率计对215站点的10槽位S16的发光口进行监视,观察了5分钟,没有看到光功率跳变。然后,我们又把全网各站点的时钟跟踪模式设置为自由振荡,关闭211站点16槽位的SL16A的激光器,故障重现。这说明出现故障时,215站点10槽位的发光功率是正常的,且与时钟也没有关系,这说明215及以上站点应该没有问题。
3、根据以上情况,我们需要到桃江去测试216站点9槽位的收光口的光功率是否正常,由于等待仪表原因,我们只能对215及上游站点进一步分析。为了排除是否是某个2500+网元的复用段环备用通道环,我们在网管上面对全网各复用段节点的备用通道上配置VC4穿通业务,故障没有重现,说明备用通道是好的。
4、接着,我们使用PTP命令,按照215、214、213站点顺序直接下发穿通页面。在对215和214下发了穿通页面以后,故障没有重现,在对213下发了穿通页面以后,故障很快重现。从现象来看,故障的出现应该有一个累积过程。
接下来,我们对211的16槽位进行光口外环回,故障不消失;对212的15槽位进行光口内环回,故障不消失;对212的16槽位进行光口外环回,故障消失;对213的9槽位进行光口内环回,故障消失。自对213的9槽位进行了光口内环回以后,使用PTP命令下发穿通页面,故障不再重现。
5、由于不能找到准确的故障位置,并且我们在安化操作,所以就对故障的上游站点215站点的9、10号槽位的光板进行更换,分别更换为新的62S16和63S16单板,但故障不消失。接着又更换交叉板,换上62XCS单板,并拔出备交叉板,故障仍然不消失,这说明这个站点的单板是没有问题的。并且还仔细观察了网元,没有倒针情况。
6、接下来,我们拿到了分光器,在215站点的6槽位安装一块了63S16单板,通过分光器把,215站点10槽位的发光口进行分光,一部分正常传送至波分,一部分传送到6槽位S16单板的收光口。然后,进行故障重现,在故障重现时,6槽位S16没有上报RLOS或者RLOF告警,说明215站点10槽位发出去的光是正常的。
此时,63S16的光功率:-12.7
桃江方向9S16的光功率:-7.8(一直保持这个值)
在215的10号板分光以后,入波分的光功率是-3.4。
为判定6槽位没上收到RLOS的准确性,我们又在6槽位换上了62S16,使故障重现,6槽位62S16也没有上报RLOS或RLOF。
些时,62S16的光功率:-15.30
桃江方向9S16的光功率:-7.8(一直保持这个值)
在215的10号板分光以后,入波分的光功率是-3.4。
在正常情况下,查询215站点9S16的光功率为-5.60。怀疑光功率不正常,我们就在215站点9号S16上加上光衰,光功率为-15.00,此时6号板的光功率为-15.30。但故障还是会重现。
7、既然215站点没有问题,我们接下来就需要确定是216站点的9槽位单板坏了,还是就是收到了RLOS。于是我们在桃江站点,通过SDH测试仪进行分光测试。
我们分别在215的9槽位收光口和桃江波分设备发向215网元9槽位的发光口进行分光,测试结果一样,SDH仪表都会上报RLOS。
为了证明我们在215站点的分光到6槽位的操作是可行的,我们又在216站点通过分光到6槽位S16单板,在故障重现时,6槽S16单板上报了RLOS告警。
综上所述,215和216站点都没有问题,因此判断问题出在这两个站点之间。由办事处进行波分单板的测试确认问题单板。
根因
根据对现场全网数据的分析以及通过SDH测试仪对215-安化和216-桃江两个站点的光信号进行测试,基本判定问题出在215与216站点之间,通过分析,初步定位为梅城波分设备的某块LWX板存在故障,但是,由于办事处考虑到没有备件可以更换,所以决定暂时不去梅城测试,待备件申请下来以后,由办事处工程师直接去测试和更换单板。所以,这个结论并没有完全被证实。该故障是由于复用段倒换(即页面切换)触发的,定位为波分设备故障,后续办事处更换单板以后问题解决。
解决方案
紧急恢复措施:
无
彻底解决措施:
更换梅城波分设备LWX单板
- 上一篇:华为SDH设备MSP倒换异常导致业务中断问题 2018-12-1
- 下一篇:OSN3500交叉单板硬件故障导致复用段异常倒换 2018-11-30