OSN1500_OSN2500_OSN3500板间通信故障报COMMUN_FAIL
问题描述
场景1:单板离线:
现网OSN3500的5槽位上的线路板SLQ4突然离线,在T2000网管上打开网元面板,显示该问题单板为灰色,但是没有任何告警上报,同时用命令行:cfg-get-phybd; 已经查询不到5槽位上的物理单板,与客户确认业务影响情况,发现业务正常。
场景2:COMMUN_FAIL告警:
一台新安装的OSN3500设备,5,7,8槽位的单板同时上报COMMU_FAIL告警,并且每一块单板上同时上报两个COMMUN_FAIL告警,通过查看告警参数,发现告警参数表示为单板的485_A串口总线和485_B串口总线同时上报了告警,有可能是两条总线都坏了。
告警信息
场景1:单板离线:
无任何告警,只是在T2000网管上查看设备面板时,看到单板变成灰色,同时用命令行:cfg-get-phybd; 已经查询不到5槽位上的物理单板,与客户确认业务影响情况,发现业务正常。
场景2:COMMUN_FAIL告警:
5,7,8槽位的单板同时上报COMMU_FAIL告警,并且每一块单板上同时上报两个COMMUN_FAIL告警,通过查看告警参数,发现告警参数表示为单板的485_A串口总线和485_B串口总线同时上报了告警。
处理过程
场景1:单板离线:
由于业务正常,所以不能做单板复位或重新拔插单板,只能试图用命令行检查:
:optp:9,0,96,1,30,06,5,1,8,0,0,50,0,f; //测试5板位业务板到9板位交叉板的485_A通信情况
测试结果485_A通信正常;
:optp:9,0,96,1,30,06,5,2,8,0,0,50,0,f; //测试5板位业务板到9板位交叉板的485_B通信情况
测试结果485_B通信正常;
:cfg-get-phybd;
查询结果故障单板所在槽位没有物理板;
:cfg-get-bdverinfo:5
查询不到任何信息,提示单板不在位;
判断485_A,485_B总线正常,LAN SWITCH总线故障;
场景2:COMMUN_FAIL告警:
逐个拔出有告警的单板,并查看母板是否倒针;
当拔插某一块单板后,发现其他单板告警同时消失;
把其他单板插回,没有再上报告警;
判断出故障单板;
将故障单板插在其他槽位,发现上报COMMUN_FAIL告警,一段时间之后,其他槽位伴随上报此告警;
命令行查询485总线情况:
:optp:9,0,96,1,30,06,5,1,8,0,0,50,0,f; //测试故障板位到交叉板的485_A通信情况
:optp:9,0,96,1,30,06,5,2,8,0,0,50,0,f; //测试故障板位到交叉板的485_B通信情况
测试结果:故障单板485_A,485_B不通;
受影响上报告警的其他单板485_A,485_B通信正常,判断为误报;
最终确定为一块单板上的485总线损坏。
根因
场景1:单板离线:
分析设备的运行情况,推测连接交叉板的业务总线正常,所以业务没有中断,单板离线说明主控与单板的通信已经中断了,但是又没有上报BD_STATUS告警?推断只有LAN SWITCH通信中断,其他通信正常,单板运行状态并不稳定。
通过以下操作试图查明原因:
1、查询物理板是否在线(cfg-get-phybd查询物理板位)
2、查看业务影响情况(查看客户业务影响情况)
3、命令行查询板间通信状态(查询485总线通信情况和LAN SWITCH通信情况)
场景2:COMMUN_FAIL告警:
同时有多个单板同时上报,不可能多个单板同时损坏,所以怀疑是某一块单板损坏影响了其他的单板,或母板出现问题比如倒针。查看告警参数,确定受告警影响的通道,该问题中的485_A和485_B上报了COMMUN_FAIL告警
通过以下操作试图查明原因:
1、查询物理板是否在线(cfg-get-phybd查询物理板位)
2、查看业务影响情况(查看客户业务影响情况)
3、命令行查询板间通信状态(查询485总线通信情况和LAN SWITCH通信情况)
4、查看母板是否倒针(把故障单板和交叉板拔出,查看母板针脚情况)
5、问题单板更换槽位测试(把有告警的单板更换到其他槽位,观察告警情况)
建议与总结
批量出现告警时,通过命令行查看单板实际状态,判断是否误报;
不用复位、拔插单板,不影响业务的情况下定位故障;
熟悉板间通信的原理。
关键字:
板间通信:OSN 7500/3500/2500/1500板间通讯有二种方式:
1)单板间2路HDLC通道,遵从HDLC协议,接口电气规范为RS485,
2)1路LAN SWITCH通道;
485总线:主要实现与复用段、SNCP、TPS相关的功能,速率为4Mbits/s;
LAN SWITCH总线:主控板(或CXL板)与单板及用户之间的以太网通信;
母板倒针:单板插入错位导致母板针脚倾倒或断掉,有可能引起短路;
OPTP命令:从源板位向宿板位发送测试数据包,宿板位接收到测试数据包后,发送测试响应数据包,然后源板位收到测试响应数据包后,经过校验,判断是否测试通过;
COMMUN_FAIL告警:根据485总线可以自发自收的原理,各单板每隔20S向自己发送一帧测试数据包(而且各单板发送的测试数据包也只有本板才可以收到),如果连续7帧未收到本板测试数据包则上报通讯失败告警;
单板不在位:BD_STATUS是单板不在位告警(Board not in position alarm),为主要告警
- 上一篇:华为SSN1GSCC_SSN4GSCC主控板故障业务倒换后不恢复 2018-5-25
- 下一篇:OSN3500 SSN1IDQ1单板开通ATM业务后出现延时过大 2018-5-25