概述
查IP网路的软故障
在日常运营工作中,无论是运营商自身的网络还是用户网络,维护人员都经常会听到用户抱怨网速太慢,但是Ping测试网络的物理连接却正常,即属于网络软故障。网速慢的原因有很多,比如软件设置不当,网络设备故障,物理链路问题,感染病毒等,对于软故障的查找分析,单单从用户的故障描述中经常不知道从何下手,使用网管系统或者交换机的端口流量统计,也很难找到问题的根源。
IP网络的业务流量分析统计
在IP网络的日常运营中,市场营销部门和运维部门需要对网络中的实际流量状况进行监测和分析。哪种业务流量{zd0}?哪个地区的流量最多?上网流量占多少?视频占多少?BT占多少?网内用户的流向?等等业务方面的问题。
DN-870流量监测分析系统能够刻画出网络中不同业务流量的大小分布状况,对网络以及网络所承载的各类业务进行及时、准确的流量和流向分析,如Web业务、E-Mail业务、SIP VoIP业务、RTP视频业务、P2P下载、网络游戏等业务各自在网络总流量中的分布状况,各地区流量出/入情况,以便作为市场营销部门、运维管理部门挖掘网络资源潜力,控制网络互联成本,并为网络规划、优化调整和业务发展提供基础依据。
千兆网络分析仪(DN-872) 手持式软故障分析仪(DN-871)
产品特色
1) 应用DPI深度包检测(Deep packet inspection)技术,实现从链路层到应用层的完整流量分析,自如获取自己想要监测分析的流量。
2) 采用交换机镜像或分光接入方式,无需使用路由器NetFlow,避免路由器额外的处理开销。
3) NetFlow根据四层端口特征分析固定的业务流量,深入到七层的流检测技术可以识别更广泛的动态端口业务流量,如BT、Emule、Skype等。
4) “三合一”的业务流量监测与分析,可以完整的分析网络中的数据、IP电话音频、网络视频业务流量。
5) 便携式的仪表,操作简便,图形化用户分析界面。
6) 用户可以灵活的自定义分析内容和方式,并自定义相关的分析报表格式。
动态流量分析结果界面
主要功能
n 故障分析类
A、二层以太帧流量分析:对局域网内的MAC帧流量进行监测分析,定位故障机器。
1) 网内主机发送和接收的以太帧数量TopN排名:可以找出发送流量和接收流量{zd0}的机器。例如有蠕虫病毒的计算机流量远远大于正常的计算机,通过流量分析结果可以找出有病毒的计算机。
2) 不同类型帧的流量分布:通过分析广播帧,错误帧,超长帧,组播帧的数量多少,找出故障潜在的原因。比如网卡故障、电力载波等都会产生大量的不正常帧,通过该功能的分析,可以找出故障点。
3) 不同长度帧的流量分布:通过分析不同长度帧的数量多少,找出故障潜在的原因。
4) 以太帧中不同协议数据的流量分布:通过分析不同类型协议帧的数量多少,找出故障潜在的原因,比如ARP病毒会产生大量的ARP协议帧。
B、三层IP流量分析:对网络中的IP主机进行监测,通过IP流量分析来查找和定位故障节点地址。
第二层只看到“帧”这一级,且只能看到MAC地址,不能直观地看到IP地址,这时可以通过第三层的功能来进一步对故障点进行确诊。这里的信息比3.1更详细,能分析出流量{zd0}的计算机,且能进一步分析出它的数据流向,各类数据分别是从哪里来的,分别发给哪些地方的。
5) 网内主机发送和接收的IP包数量TopN排名:可以找出发送流量和接收流量{zd0}的IP地址节点。
6) 网内主机发送和接收IP包的详细信息:可以查找网内所有主机发送和接收流量的详细信息。
7) 网络协议扫描:通过分析不同类型协议包的数量多少,找出故障潜在的原因,比如ICMP病毒会产生大量的ICMP协议包。
8) 网内主机会话的TopN排名:可以找出哪一对主机之间的流量{zd0},以及它们的IP地址。
9) 网内主机会话的详细信息:通过查看网内所有主机会话的详细信息,分析哪种协议的流量{zd0}。
C、 ICMP路径扫描:网络常用工具Ping、Traceroute等都使用ICMP协议,通过ICMP扫描,在确诊故障点的基础上,进一步分析和定位故障原因。
10) 网内节点ICMP扫描:通过查看ICMP扫描后的统计信息,分析网络故障的潜在原因,如大量重定向错误可能是DNS服务器出错。
11) 网内节点ICMP扫描详细信息:对ICMP协议包进行解码分析,查看网内主机详细的ICMP错误码信息,分析网络故障的潜在原因。
n 业务分析类
A、网络流量监测分析:对网络中的流量和流向进行分类、分地区统计分析。
12) 网络中各种业务流量的分布和TopN 排名:可以监测网络中的业务如WWW、FTP、DNS、E-mail等常用数据业务,SIP VoIP音频业务,RTP视频业务,以BT、eMule、Skype为代表的P2P业务。
13) 各个网段/地区的业务总流量TopN 排名:分析不同地区网段的流量状况,进行评估。
14) 指定某个业务应用,各个网段/地区上的流量TopN 排名:分析某项业务在不同地区网段的应用情况。
15) 指定某个网段/地区,各种业务应用的流量TopN 排名:分析某个地区网段中各项业务的应用情况。
16) 流量流向分析:分析某个网段地区到其他各个网段地区的流入和流出流量的情况。
17) 指定某个网段地区,针对指定业务应用的流量流向分析:分析某个网段地区,针对指定的业务应用,到其他各个网段地区的流入和流出流量的情况。
18) 指定客户/主机服务器的流入和流出流量分析:分析某个指定的主机服务器到其他主机、网段的流入和流出流量情况。
19) 用户自定义报表分析:用户可以根据自己的需求定制报表格式进行流量分析。
B、 静态数据配置
20) 用户可以配置地区名称与对应的网段地址,如a地区,网段地址为1xx.xx.1.0~1xx.xx.127.0;b地区,网段地址为1xx.xx.128.0~1xx.xx.191.0。
21) 用户可以配置某个大客户的网段地址。
22) 用户可以配置特定的应用主机服务器地址。
n 业务流量分析的应用
a) 分析网络内部用户访问其他外部网络的业务特点和主要流量的去向,掌握网内用户对外网的兴趣点,找到热点应用业务的信息。然后根据分析结果进行相应业务内容的建设,减少网内用户出外网的次数。
b) 将用户感兴趣的热点信息内容放到内部网络,一方面可以减轻互联链路的出口压力,另一方面还可以吸引其他网络用户流入到本网内,减负增效。
c) 分析网络出口的流量和流向,了解网络内部用户对其他外部网络的访问情况,有效选择与其他网络的互联方式和互联地点,节约互联链路费用。
d) 分析各个分支网络的出/入流量大小、去向及内容,了解各分支网络占用带宽的情况,其业务开展情况,并作出价值评估。
e) 对重要应用和大客户的流量进行统计分析,掌握重要应用和大客户的流量状况,进行网络带宽的成本分析,有助于在网络服务质量和网络成本之间取得{zj0}平衡。
f) 通过流量分析为多出口的流量负载均衡、重要链路的带宽设置、路由选择和设定QoS等网络优化措施提供依据。
接入方式
针对被监测网络的具体需求,本系统可以通过两种方式接入,即镜像方式和分光方式,其中镜像方式针对千兆网络,分光方式针对2.5G/10G带宽的应用分析。
镜像接入方式
分光接入方式
型号对照表
型号 |
手持式软故障分析仪(DN-871) |
千兆网络分析仪(DN-872) |
硬件配置 |
手持仪表 |
工业笔记本 |
处理器 |
PPC |
双核2.0G |
内存 |
256MB |
1024MB |
硬盘 |
10GB |
80GB |
电源 |
电池或交流电 |
电池或交流电 |
操作系统 |
Linux2.4 |
Linux2.4 |
网络连接 |
||
RJ-45 |
10/100/1000BASE-T以太网 |
10/100/1000BASE-T以太网 |
1000BASE-TX |
1个 |
1个 |
1000BASE-LX |
无 |
选件(LC光接口) |
1000BASE-FX |
无 |
选件(SC光接口) |
功能配置 |
||
流量动态统计 |
● |
● |
历史流量信息 |
无 |
● |
发现新业务 |
选件 |
● |
物理层扫描 |
● |
● |
网络层扫描 |
● |
● |
ICMP扫描 |
● |
● |
静态数据配置 |
● |
● |
多种分析报表 |
● |
● |
数据库备份 |
● |
● |
软故障分析案例
案例1某市电信公司为该市及市辖县的普通用户提供本地Internet接入服务。首先是用户反映网络速度很慢,随即营业厅报告速度突然变慢,影响业务。网管人员从公司网管系统上观察,发现该营业厅子网的路由器流量达95%,中心网络的路由器与其它子网的交互流量均为40%以下。
仪表诊断:根据故障现象估计故障在营业厅所在子网的可能性较大,从总网络拓扑图上看,营业厅子网与中心网络的路由器链路只用于传输一些业务数据,网管报告流量达95%显然过高。现在需要弄清的是,如此高的路由流量的来源以及数据包到达路由器以后的去向,以便定位链路通道流量的数据源和拥塞源。
将Traflow流量分析仪接入营业厅路由器所连接交换机的镜像端口进行监测,在“静态数据配置”中添加每个子网的网段以及各个服务器主机的IP地址。在仪表主界面流量饼图中显示大部分流量分布在WWW、E-mail上。在“当前动态流量统计”中,流量{zd0}的前十个地区中,排名{dy}的IP为营业厅业务数据库服务器。
在“流量信息统计”中查看“某地区的流量入出统计”报表,‘监测地区’选择该业务数据库服务器,‘流向地区’选择全部地区,结果显示95%流量流向了业务数据库服务器。再查看“某地区某业务的流量入出统计”报表,查看该服务器的各种业务流量,显示多数为WWW 和E-mail方面应用,与该服务器正常的工作无关。其中Internet访问流量占通道流量的88%,其他本地流量占7%。查看报表指示的流量来源分布地区,IP地址分布比较均衡,没有发现集中的流量用户,说明不是某个黑客程序的集中‘轰击’。因此初步判断是应用和数据通道路径出了问题,大量流量被引导到营业厅服务器。
启动Traflow流量分析仪“ICMP扫描”功能,结果发现ICMP扫描中‘重定向’数据包(包括网络重定向、主机重定向、服务类型和网络重定向、服务类型和主机重定向)总共占到82%,‘目标不可达’数据包(包括网络不可达、主机不可达、协议不可达、端口不可达)数量总共占到13%。
这表明,只有约5%的用户能正常路由到达目标站点,其余95%的IP数据包都要经过路由竞争或重新发送才能有机会到达目的地。由于多数Internet访问流量被引导到了营业厅服务器,故判断是DNS服务器出了问题。经过短暂的业务中断后,更换新DNS服务器,所有用户均恢复正常。
案例2某电信网管中心的网管系统报警,提示某县级市的网络有异常情况,该县级市网络不在网管中心的网络拓扑图上。县级子网却一直报告网络正常,速度很快。该故障在早期时隐时现,后来高频发作甚至是一直持续故障。
仪表诊断:针对故障症状,前往该县级市网管中心,根据地区网管中心提供的线索,该子网的路由器报告错误数据流量较高,因此直接对该子网进行测试。
将Traflow流量分析仪接入网络交换机的镜像端口,在“静态数据配置”中添加网段中交换机每个端口连接的子网段和各个服务器的IP。启动“物理层扫描”功能,结果显示CRC校验错误帧和长度错误帧的比例分别达到27%和11%。断开路由器,错误指标略有降低。这表明故障是在该子网,与WAN链路基本无关。
点击“物理层扫描”中的“详细信息”,进一步观察Traflow流量分析仪指示的错误帧信息。报表中提示有一个工作站发出大量类型为‘CRC帧校验错误’的数据包。用Traflow的“ICMP扫描”功能测试工作站与服务器的联络情况,在“详细信息”中可以看到大量的重定向ICMP包和网络不可达ICMP包。当拔下该工作站电缆插头后,Traflow流量分析仪的“物理层扫描”所指示的错误帧全部消失,确定故障出现在该工作站上。
靠近该工作站闻到一股虽不是十分明显,但却比其它工作站都强烈的电器烧焦味。贴近机器可以听到开关电源中发出的明显的咝咝响声。更换该工作站的开关电源,故障排除。显然是PC机开关电源故障,导致网卡工作不正常,干扰了整个网络系统的运行。
案例3 某企业中心网络出现严重故障,网络运行速度越来越慢,但是Ping测试所有重要的服务器、路由器、外地路由器、外地服务器,都连接良好。重新启动服务器,网络运行速度恢复正常,但10分钟内迅速下降至病态水平。网管系统也观察到服务器流量比平常高,路由器流量基本满负荷。
仪表诊断:将Traflow流量分析仪接入中心交换机的镜像端口,开启“动态流量统计”功能,五分钟后,观察生成的动态流量图(饼状图)和动态流量统计表。结果如下:50%流量为E-mail应用数据包,其它依次是HTTP应用占2% ,DNS应用占1%,FTP应用占0.7%。可见主要是E-mail应用影响网络流量,这是不太正常的现象。
在“当前动态流量统计”中,流量{zd0}的前十个地区中,排名{dy}的IP是某个工作站,并且其流量远远超过第二名。点击“静态数据配置”按钮,添加该工作站IP,在“流量信息统计”中查看“某地区的流量入出统计”报表,结果显示该工作站的流量流向各个站点,并且大量的目的IP不在本网络内。因此初步诊断该工作站上可能有某个黑客程序发作,集中‘轰击’整个网络。
当拔下该工作站网络电缆的插头后,网络性能迅速好转,由此确定故障出现在该工作站上,使得整个网络遭到某种黑客软件的攻击。对该工作站重新安装系统和应用程序,恢复备份数据,重新运行,整个网络正常。
案例4某企业中心网络基本瘫痪,由于网络中心的网管系统也陷于瘫痪状态,无法观察任何网上设备的情况。但是询问各营业厅子网内部的工作情况,回答正常,只是缴费动作无法实现。
仪表诊断:根据故障现象可以基本断定故障就在中心网络系统中。将Traflow流量分析仪接入网络中心的交换机镜像端口上,启动“物理层扫描”功能,扫描5分钟后,在主界面列表中观察到错误帧占到98%。其中短帧(小于64字节)占40%,长帧(大于1518字节)占58%。点击“详细信息”,显示某个MAC地址对应的长度错误帧数量异常庞大。双击该MAC地址,发现此MAC地址向网段所有机器发送长度错误的数据帧。
点击“当前动态流量统计”功能按钮,在流量{zd0}的前十个地区中,排名{dy}的IP是一台服务器,并且其流量远远超过第二名。经过资料查询,该服务器的MAC地址与IP地址对应。拔下该服务器网络电缆插头后,网络迅速恢复正常工作,据此确定该服务器网卡出错。更换服务器网卡,重装驱动程序并设置响应参数,重启系统,整个网络恢复正常。