IPTV业务异常导致SSN4EGS4板丢包使视频点播出现马赛克
问题描述
1、Optix OSN2500 IPTV系统业务流经传输设备绑定1个155M带宽的以太网通道,点播节目后,场景切换较快的画面会出现马赛克,机顶盒有LOS(丢帧)计数增加,约5~10分钟会出现一次;一套节目平均所需带宽为2Mbps。
2、组网图如下图所示:
告警信息
SSN4EGS4板承载的视频点播业务出现马赛克。
处理过程
1、配置中心局#210网元5-EGS4-1至#213网元EGS2-1、中心局#210网元4-EGS4-3至#213网元EGS2-2两条绑定1个VC4带宽的以太网通道,在#213网元EGS2板使用光纤将PORT1和PORT2直接环回,在#210网元EGS4板GE口使用业界公认的SmartBits仪表发140Mbps速率测试(速度已接近绑定带宽的极限), 连续挂表58分钟无任何丢包现象,证明传输设备不存在问题。
2、接入IPTV点播业务流,视频接收设备能连接视频服务器,但点播节目后,一直黑屏,经分析并确认是视屏接收设备工作模式设置问题,匹配工作模式后,能正常点播节目,场景切换较快的画面会出现马赛克,机顶盒有LOS(丢帧)计数增加,约5~10分钟会出现一次。从EGS4单板GE口的RMON统计分析,EGS4单板没有收到超长包、超短包或FCS错包,排除了错包的可能性。
3、使能#210网元5-EGS4-1口(与思科路由器对接端口)的流控后,效果明显好转,绝大部分节目点播时机顶盒LOS(丢帧)计数为0,播放《速度与激情4》15分钟画面切换速度较快的场景,机顶盒LOS(丢帧)计数为2;禁止流控后,机顶盒LOS(丢帧)计数增加5倍,说明IPTV业务流存在严重突发。判断的依据是:由于EGS4单板的业务芯片有反压机制,如果出口缓存已满则业务芯片会自动通过入端口向上游设备(即思科设备)发送Pause帧,上游设备收到Pause帧后应该会暂停发送业务报文,这样EGS4单板就可以避免因为无法缓存突发报文而丢弃包文。
4、在CISCO6509配置GE端口镜像,使用ETHREAL抓包工具分析,禁止5-EGS4-1端口流控,抓包和点播操作同时启动。
点播《速度与激情4》场景变化非常快且变化很大的影片,观察机顶盒LOS(丢帧)计数变化及马赛克时间点,发现第228秒时,机顶盒LOS(丢帧)计数增加3,分析抓取到的数据。
5、分析抓取《速度与激情4》节目的数据包,发现第228秒出现马赛克时,数据包存在严重突发,抓包数据如下:
第83145帧时间戳为228.716956S
第83186帧时间戳为228.718349秒
这42帧持续时间只有0.001393秒,这42帧合计约37.2Kbytes,此时间窗内的带宽突发达到:37.2*1000*8bytes/0.001393秒=213.6Mbps。
分析视频数据流,该套节目的平均流量只有2Mbps,在每个以太网帧长平均为888bytes(抓包统计取得)时,1秒钟只需发281.5帧,在出现马赛克时,只用了0.001393秒(1/717秒)持续发完42帧,这42帧如果以平均速率发送,需要42/281.5秒,即约1/7秒完成,因此,从抓包分析的结果表明,该视频业务流存在严重的流量突发。
6、由于利用传输以太网板实现了GE到1个VC4通道的带宽收敛,存在带宽瓶颈,如下图所示:
B区为单板可用于流量突发的缓存,当突发流量A区部分的大小超过B区就会出现正常的丢包现象。只要带宽存在收敛,在流量严重突发情况下,就可能存在正常的丢包现象。(作为传输设备,EGS4单板的端口缓存队列较小,每端口仅有40Kbytes,除开单板内部附加的开销字段实际可以缓存的报文最少时仅能达到20Kbyte,因此能容忍的突发报文也较少,当存在带宽收敛时,瞬间的突发报文容易引起正常丢包。)
7、为进一步验证流量突发对带宽收敛的冲突,采用如下组网
不经传输设备,使用思科千兆交换机完成GE到FE的收敛后进一步测试,以验证交换机能否承受业务流的突发:
经验证,在该组网下进行节目点播测试,视频信号会出现马赛克现象,说明该交换机的缓存也不足已承受该视频业务突发流量的冲击。因此视频源业务流存在严重的突发是问题的关键所在。
8、客户反馈W市至H市的通道也只有1个155M带宽,但没有出现马赛克问题,经进分析确认,该业务流是采用的TPC/IP协议,将该业务流经传输绑定1个VC4带宽的以太网通道承载后,点播业务也没有任何马赛克现象,因为TPC/IP协议有重传机制,这也为后续解决提供了一种经验证过的解决办法。
9、由于客户视频设备不支持TPC/IP协议传送视频流,且客户不愿意开启上游路由器流量整形功能,因此采用增加1倍速带宽的方式,极大缓解了丢包的概率,客户点播视频流不再有马赛克。
原因
1、传输以太网通道出现丢包;
2、Optix OSN2500 IPTV点播流数据包文存在严重突发。
建 议
1、上游路由器完成基于VLAN业务流的流量整形;
2、视频源设备完成更好的瞬时流量调节控制,从源头解决问题;
3、由于以太网板配置GE口到绑定了1个VC4的VCTRUNK会存在带宽瓶颈问题,加大带宽,缓解丢包的概率;
4、当流量存在严重突发,导致少量丢包时,IPTV使用的UDP协议没有重传机制,如使用TCP/IP协议,可以规避该问题,同时也可规避因光路误码导致的马赛克问题。
- 上一篇:华为Optix OSN3500主机数据库清库命令介绍 2018-5-25
- 下一篇:OSN3500扩容SSN2PQ1A_SSN1SLQ16单板异常 2018-5-25