打电销办理什么卡不会被封号
2.2 网络流量分析逻辑架构
NetFlow流量分析及异常流量监控系统分采集和分析两
部分,使用通用x86服务器架构,支持物理机和虚拟机部署。
采集部分使用主备机工作模式,符合电信级运营服务
标准,负责采集NetFlow数据流量、动态路由更新等多种信
息,并具有灵活的扩容架构。
分析部分使用分布式计算的模式,对可组建服务器群进
行并行计算,平滑提升分析能力,可灵活调度计算能力,实
现不同运算速度的主机并行工作。主机故障时计算任务自动
分配到其他计算单元进行处理。
2.3 流量分析系统软件架构
基于DNS和NetFlow流量分析系统的软件架构分为:数
据采集层、大数据分析层和分析结果输出展示层。
(1)数据采集层:采集NetFlow信息、动态路由数据、
DNS日志数据。
NetFlow信息:网络设备按照约定的采样比3000:1,周
期性地向采集系统发送的NetFlow信息,NetFlow的流信息
包含在UDP报文中输出。以V5输出报文为例,每个UDP报
文包含一个NetFlow报文和最多30条流记录,每条流记录
包括以下主要字段信息:数据报文的源IP、目的IP、下一
跳地址、源端口、目的端口、TOS、协议类型、TCP标志
位,以及流中的数据包数、流中的总字节数、流记录的起
始和结束时间等关键包头信息。采集系统支持NetFlowV5、
NetFlowV9等常用的多种Flow格式。采集设备接收网络设备
发送的NetFlow流数据,每一个流数据保存一行,每行数据
包括:源IP、目的IP、下一跳地址、源端口、目的端口、
TOS、协议类型、TCP标志位,以及流中的数据包数、流中
的总字节数、流记录的起始和结束时间。
动态路由数据:采集系统通过与网络设备启动BGP动态
路由协议学习网络中的动态路由,采集系统的工作模式为单
向模式,只通过网络实时输入路由表,不对外发布数据。每
采集一条路由保存一行,每行数据包括:目的网段、下一跳
地址、metric、locprf、weight和Path。BGP动态路由数据的
好处在于,网络运营商IP地址的范围是变化的,此外有些没
有自己网络的小ISP,会自带IP接入到某个运营商网络下,
仅从IP地址有时很难准确判断IP所归属的运营商,而BGP路
由表会根据IP地址路由情况动态变化,可以准确反映运营商
IP地址的范围。通过BGP动态路由数据关联IP地址归属,可
以保证IP归属结果的准确性。
DNS日志数据:采集系统可以实时接收DNS系统的日
志文件,通过与DNS数据关联可以将NetFlow数据匹配到网
站域名。每采集一条域名解析日志保存一行,每行数据包
括:源地址、目的地址、源端口、目的端口,以及请求或解
析的内容和解析时间。
(2)数据分析层:NetFlow流量分析系统通过数据分析层
对采集数据进行大数据分析。
分布式文件系统采用的HDFS文件系统。HDFS有高容错
性的特点,并且设计用来部署在低廉的硬件上;而且其提供高
吞吐量来访问应用程序的数据,适合NetFlow流数据、DNS日
志信息这些有着超大数据集的应用程序。HDFS放宽了POSIX
的要求,可以以流的形式访问文件系统中的数据。将BGP路由
表、NetFlow流数据、DNS日志信息保存至HDFS文件系统中。
实时分析系统采用MapReduce和Spark,MapReduce用
于大规模数据集(大于1TB)的并行运算。概念“Map(映
射)”和“Reduce(归纳)”,及其主要思想,都是从函数
式编程语言借来的,还有从矢量编程语言借来的特性。当前
的软件实现是定一个Map函数,用来把一组键值对映射成一
组新的键值对,指定并发的Reduce函数,用来保证所有映射
的键值对中的每一个共享相同的键组。Spark适用于数据挖掘
与机器学习等需要迭代的MapReduce的算法。Spark是为了支
持分布式数据集上的迭代作业,但是实际上是对Hadoop的补
充,可以在Hadoop文件系统中并行运行,构建大型低延迟的
数据分析应用程序。
决策分析数据库用来存储MapReduce和Spark大数据挖
掘的数据结果,不同于以往的数据库,决策数据库不仅保存
Spark分析的结果,而且可以Spark的输出数据进行迭代分析。
(3)分析展示层:NetFlow流量分析系统分析展示对大数
据分析的结果,并以直观的图形表格形式展现给客户。
针对河南联通网络中重点内容资源及重点CP/SP/CDN
服务商,分析其特定区域的服务器流量流向分布或特定区域
的客户至指定CP/SP/CDN的流量流向分布,评估流量本地
化效果,或者作为CP/SP/CDN流量调度优化的依据。
如图1所示,以运营商A和某大型CDN服务商为例,通过
分析访问该CDN服务商在运营商A城域网B的服务器的用户流量
在国内/国际、国内各运营商及在运营商A内部各省的分布,评
估该CDN服务商放置在该城域网的服务器流量本地化效果。
例如分析百度网站域名时,以该网站二、三级域名为输
入,对河南联通DNS日志进行后域名匹配数据挖掘,找出包
含该域名的全部下级域名的服务器IP地址,并可以同时录入
该资源的多个域名。
通过后域名匹配,可以发现该网站资源共匹配解析IP地
址136个。
然后将这些IP地址作为输入,与BGP路由数据进行迭代
分析,得到这些IP地址落地,可以看到这些IP地址的落地归
属情况。