时间:2023-06-04 08:37:22
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇网络流量分析的方法范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!
1 多媒体流量分析的基础
多媒体在应用层面对于用户的强大支持,映射到其数据层面,必然是不容忽视的大量不同数据格式。而在这样的环境之下,想要展开有效的网络流量分析,实现对于通信资源的优化利用,首先必须展开对于多媒体报文的有效分类。每一个报文都会在这个过程中被分类到对应的类型,而后进一步依据运营商制定的传输优先策略对其展开传输处理。
多媒体流分类问题可抽象成从多媒体报文映射到流类型的过程,多媒体报文流经流分类器,即展开对于其的辨别并且添加相关的类型标识,通常会将该标志写入报文头部字段中,便于后续识别和处理。在识别的过程中,可供识别多媒体流的方法主要有三种,即基于报文头部信息的分类方法、基于数据包载荷内容的分类方法以及基于流量统计模型的分类方法。其中基于报文头部信息的分类方法,即依据报头中的多元组信息展开工作,将其与预先定义的规则集进行比对匹配,并且确定出媒体流的对应分类进行标识。此种工作方式相对简单,因此发展也趋于成熟,效率较高,但是在识别过程中由于多媒体应用使用的端口通常并不固定,因此针对而言准确率比较有限。而基于数据包载荷内容的分类方法则面向报文载荷信息展开识别和工作,进一步又可以针对应用层协议展开解析或针对载荷内容展开特征解析。此种识别方式工作准确率基本有所保证,但是对于某些私有协议以及加密数据流,会因为无法有效提取特征信息而导致识别失败。最后,基于流量统计模型的分类方法主要是关注多媒体流量特征,通过流量来判断多媒体数据的传输行为模式,诸如数据包的大小以及包与包之间的间隔时间等方面特征。此种方式能够实现系统的自主学习,但是会存在一定的分类延时。
2 网络流量分析技术浅议
对多媒体进行标识之后,可以在网络环境中展开更为有效的网络流量分析。已经被标记的信息流在传输过程中能够表现出不同的对于资源的占用,以此作为依据展开更具有针对性的网络流量分析,对于整体网络数据传输资源和功能的优化都必然有着积极价值。
随着计算机技术的不断成熟,网络流量分析技术也呈现出不断发展的特征。当前的流量分析技术,主要是在传统的数据库技术基础之上,以一种开放的态度构建起支持自学习的网络流量分析系统,从而实现整个体系的智能化。就目前的状况看,常见的几种流量分析技术有以下几种。小学德育论文
1)SNMP技术。此种技术主要用于实现面向网络环境中多种类型设备展开监控和管理,并且对既有问题进行定位。该技术系统包括SNMP协议、管理信息结构以及管理信息库三个部分构成,其中SNMP协议用于实现在应用程序和设备时间交换信息,而管理信息结构用于指定一个设备维护的管理信息的规则集,最后管理信息库用于明确设备所维护的全部被管理对象的结构集合。
2)RMON技术。该项技术由IETF定义,本身是对于SNMP技术的一种深入。其对于标准功能以及网管站远程监控器之间的接口进行了重新定义,使得其能够实现更为顺畅的数据交换,从而有助于展开对于网络环境数据流量的更为有效监视。在RMON系统中,当探测器发现了一个非正常态的网络段之后,会主动与网络维护管理控制台接通联络,并将对应的网络信息进行发送,实现对于整体网络流量的监控和分析。
3)SFlow技术。此种技术以随机采样作为主要的研究方式,并且能够提供从第二层到第四层的相对完整的网络流量分析信息,这种分析甚至可以扩展到整个网络环境中,能够实现面向大数据流量的适应,尤其是在面向以流媒体作为主要流量资源占用的网络环境时,仍然能够保持稳定的表现。此种技术成本较低且不会因为引入其技术为网络环境带来新的冲突,同时数据信息量大,能够实现更为完善的网络分析。
4)NetFlow技术。此种技术主要用于实现网络层高性能交换,首先被用于对网络设备的数据交换进行加速。但是其核心是对于流缓存进行进一步的整理,因此在工作的过程中必然会能够得到很多依据汇聚方法而统计的数据,其中包括诸如源IP、目的IP以及源端口和目的端口以及相关传输协议与包数量等,这些信息和统计数据对于深入展开网络流量分析有着不容忽视的积极价值。
3 结论
在多媒体应用的网络环境中,深入可靠的网络流量分析系统,对于切实提升网络自身的数据传输能力,为多媒体用户提供更为稳定的数据传输服务有着积极价值。实际工作中唯有不断深入发现自身网络环境特征,才能有的放矢展开有效的流量分析,实现网络环境优化。
路由器、交换机、宽带接入服务器是构成宽带网络的主要网络设备,一般数据网管系统可以看到每一台设备的CPU、内存、端口流量、路由数据库等网络信息,但这些流量是怎样构成的,会对网络产生怎样的影响,我们无从知晓。对宽带网络流量的深入分析,使网络设备流量监控系统可以监测的数据包括:网络流量构成分析、使用的协议、系统负载、端口分布情况、数据应用统计、数据安全性、发送时间等。网络流量分析应用可以接收来自网络的各种信息,通过对这些数据的分析,网络管理员可以深入了解网络当前的运行状况。下面从几个方面对宽带网络流量分析方法进行探讨:
1 数据抽样
抽样是指从原始数据集中按一定原则抽取部分实例,构成数据子集作为观察对象。抽样的目的是为了代表原始数据集特性的较小的数据集上获得对原始数据集特性的推断。数据抽样的方法包括简单随机抽样,即按照1/k的频率,随机进行抽样;系统抽样按数据包生成的时间顺序,在抽取第一个数据包后,每隔k个包抽取一个包;分层抽样可对标注过的每类应用采用简单随机抽样或系统抽样方式抽取数据包;集群抽样可从多个子数据集中再随机抽取若干个子数据集。
为对数据分布进行准确的分析,要用到几个简单的度量指标,包括算数平均值Mean、算数和S、计数C、最小值Min、最大值Max、极差Ed、中列数Mr、第一个四分位数Q1、第三个四分位数Q3、中位数Median、众数Mode、离群点Outlier等。设n个排序后的观察:
C=n
Min=x1
Max=x1
Ed=Max-Min
Mr=(Max-Min)/2
Q1=xn/4
Q3=x3n/4
Median=(x[n/2]+x[(n+1)/2])/2
另外,众数是指数据集中出现频率最高的数;离群点有时又称为歧异值,通常是指数据集中与数据一般行为不一样的样本。
2 流量分类
网络流量分类是依据网络应用协议对应的某些参数或特征,自动将网络流量分成不同流量种类的过程。流量分类一般指将网络流量分为多类,如果是二类分类,则可以使用流量检测、流量识别、流量鉴别等方法。
从网络流量分类针对的目标粒度,由细到粗又可以进一步分为包级(packer-level) 、流级(flow-level)和会话级(session-level)。包级分类基于网络数据包所具有的特征,如包长、包到达间隔时间等,对每个数据包进行分类;流级分类基于五元组(源IP地址、源端口号、目的IP地址、目的端口号和协议)进行分类,除关注包级特征外,通常会进一步考虑流级得指纹特征,统计特征或行为特征;会话级分类基于三元组(源IP地址、目的IP地址和协议)进行分类,适用于简单网络服务环境的流量粗分类。
基于DPI(深度包检测)的流量分类方法通过分析特定应用在通信过程中的传输协议特征串实现流量分类,DPI一般是在应用层内容搜索特征串,如BitTorrent的某个TCP数据包中包含特征串”0x13BitTorrent”。在基于载荷进行DPI的流量分类中,DPI流量分类需要解决如下几个问题:非标应用和私有协议越来越多,它们多缺乏公开可用的协议规范,导致特征串难找易变;某些特征模式的代表性较差,仅能匹配到部分流量,导致检全率较低;随机加密流可能匹配若干模式,导致误检率较高;基于协议语法或数据语义分析需要进行大量计算,导致系统时间和空间开销较大。
3 基于统计学习的流量分析
基于统计学习的流量分析方法通过计算特定应用流量的统计信息,利用各种机器学习算法,包括有监督学习算法和无监督学习算法,对捕获的网络数据包进行鉴别。基于机器学习的网络流量分类通常包含三个步骤:统计特性抽取,单包特征如包长,复合流统计如均值或标准偏差;分类器构造及训练;新流量分类。
基于机器学习的流量分类方法面临以下几个方面的问题:难以确定最有效的特征集,既要选择最佳的n个特征,使分类算法得到最大的分类准确率,同时要求n的值最小;高维特征导致某些算法收敛时间长,计算复杂性较高,若仅参考从数据包头导出的分类特征,如果每个流用于抽取特征的包数为n,则收集每个特征的计算成本将接近n.log2n;某些算法模型可能陷入局部最优;分类准确率高度依赖于样本的先验概率,而训练和测试样本对某类流量可能是有偏样本。
4 总结
宽带网络流量分析是网络运营管理,网络发展规划,网络流量调度和高效能业务前瞻的依据。网络流量分析也是网络攻击和恶意代码检测以及流量清洗的重要手段。随着宽带网络流量的快速增长,骨干网体系架构不断演进、扁平化、网状化、动态自适应成为网络发展的趋势,宽带网络流量分析再次面临巨大挑战,包括:高速网络数据实时无损采集、单向流、协议私有化、加密、P2P、隧道传输、缺乏可信数据集和评估标准,网络流量分析研究工作仍然需要不断深入与创新。
参考文献
[1](美)Nader F.Mir,潘淑文.计算机与通信网络[M].北京:中国电力出版社,2010(01).
[2]余浩,徐明伟.P2P流检测技术研究综述[J].清华大学学报,2009(49).
[3]彭芸,刘琼.Internet 流分类方法的比较研究[J].计算机科学,2007(34).
1网络流量分析的内容
网络通信流量分析的目的是了解网络工况,及早发现可能存在的数据流量问题和应对措施。需明确的是,计算机网络通信的核心作用是传输数据,而网络流量的分析就是采集和分析计算机网络中传输的海量数据流,网络数据流的分析从计算机及传输相关的物理硬件底层的数据流到应用层的数据流分析,也称为网络通信协议分析。网络管理人员若想了解和管控好一个网络,其最重要的就是对网络的了解,所谓知己知彼,包括并不限于了解网络的拓扑结构、配置参数和设备类型等,但要保证网络通信的服务质量,这样的认知是还是远远不够。对网络通信流量的分析能使网管更深入地了解计算机网络,包括计算机网络运行规律、网络运行模式和用户的上网行为。
2网络异常的行为
计算机网络异常的发现是建立在充分认知和网络阀值为基础的,一旦网络流量突破了网管人员预设的网络流量阀值,就需要通过发现、询因、流控等技术手段,以防止网络流量的无限暴增,进而能为网络通信保持一定的高性能运行提供重要的保障。通常的网络异常情况如下:(1)网络运行异常:网络中流量的异常,包括资源利用率、数据包数的异常。(2)网络应用异常:进程连接数量、用户应用响应、应用程序流量的异常,都能通过长期的主动分析来及时预警和发现。(3)用户的异常上网行为:异常的上网行为也有鲜明的流量特征,如被蠕虫病毒感染、不知情的情况下安装了后门程序等,长期的数据流量分析能及时发现上网用户的这些异常网络行为,如何及时发现网络用户的异常上网行为是解决其影响网络正常高效运行的关键。
二建立机器学习的计算机网络通信流量分析
模型计算机网络流量的突变性、弱耦合性和影响的非线性等特性,对传统计算机网络通信理论提出了新的挑战,导致对网络流量和协议概率分布的准确建模变得异常困难。
1模型拟解决的问题
针对计算机网络通信流量分析的特点,提出了一个基于机器学习的计算机网络通信的流量分析概念模型。提出该模型的真正目的在于:最大限度地利用获得的流量数据和网管人员的监测信息,自动完成流量分析的各个任务,自适应各种上层应用及对网络的性能优化。同时,模型通过计算机主动学习,指导主动式监测的进行。从通信流量分析的具体任务而言,如果已经较好地获得了数据流量的概率分布特性,有两个基本的问题:(1)正常情况,计算机监控程序能否利用已得到的概率统计特性来预测可能发生未知的数据流量情况;(2)数据流量的特性突变之时,计算机监控程序能否快速、有效地发现这种流量突变。这分别对应于网络数据流量预测和异常网络数据流量检测,可以通过具有自学习能力的计算机程序自动实现上述预测和检测。
2机器学习的概念
模型所谓机器学习的本质是计算机程序的性能随着经验的累积能自我完善。恰当选择计算机的机器学习算法,可最大限度地使用上述经验和监测信息,从而完成流量分析各任务的自动化处理,并根据应用环境对网络的性能进行优化。为此,机器算法是处理上述问题的理想选择。首先给出基于机器学习的网络流量分析模型,接着从机器学习的角度,阐明基于改进Boosting的机器学习算法。机器学习的本质是将人类的经验积累和长期的监测到的统计数据通过计算机程序以自动提高其性能,根据计算机通信网络分析的一般流程,提出机器学习模型。此类模型利用网络监测算法测量获得的流量数据,然后利用机器学习的方法,自动完成流量分析的各项作业任务,支持各种上层应用对网络的性能优化。当网络管理人的监督信息可以获得的时候,该数据信息可以作为机器学习算法的储备和先验知识,结合人类的智慧以进一步提高算法的性能,如此往复,循环提升,不断提高系统的数据流量分智能。
3改进Boosting算法
改进Boosting算法是一类使得学习算法的性能得以提高的学习策略。基于Boosting的学习算法的思路:找到许多简单粗略的判断准则要比找到一条非常准确的准则容易得多。通过不断调用这种算法,每次用训练样本的不同子集对它进行训练,循环多次后,这些准则就会结合成一条基本学习规则。
DOIDOI:10.11907/rjdk.162346
中图分类号:TP309
文献标识码:A 文章编号文章编号:16727800(2016)011018402
0 引言
异常流量相对于平稳的网络流量有着显著变化,它来自于网络中的拥塞和路由器上的资源过载。网络运营商必须及时准确地检测异常流量,否则网络无法有效、可靠地运行[1]。研究人员采用了各种分析技术,从基于体积分布的分析到基于网络流量分布的分析来研究流量异常检测。而最近研究表明,基于熵的异常检测具有更好的效果。该方法是在流量分布中捕捉细粒度的模式,使用熵来跟踪流量分布的变化具有两方面优势:①利用熵可以提高检测灵敏度,异常事件的发生可能未表现出存储量异常;②使用流量特征可以诊断信息异常事件的性质(如区分蠕虫、DDoS攻击或扫描)[2]。
一般而言,大多数研究者认为Flow头的功能(如IP地址、端口和流量大小)可作为基于熵的异常检测的备用选择[3]。然而,端口和地址分布的两两相关性大于0.95,异常检测到的端口和地址分布明显重叠,这是产生深层流量模式的本质原因。此外,异常扫描、DoS和P2P事件都不能通过端口和地址分布进行精确检测,或只有在显著的网络流量异常事件发生时才能检测出异常。考虑到端口和地址分布的有限作用,应选择流量分布作为基于熵的异常检测指标。
本文提出一种利用度分布提高端口和地址分布检测能力的异常检测机制。使用入度和出度分布来估算每个主机通信的目的/源IP地址,对于每个入度值(出度值),通过计算熵来诊断异常。其中,选择目的/源IP地址作为唯一备用指标,而不是两个地址和端口,不需要使用具有相同底层属性的不同分布来增加计算开销。同时,为了捕捉动态网络流量的本质,引入了一个固定时间宽度的滑动窗口机制。
1 相关研究
网络流量的异常检测是保证网络正常有效运行的重要手段。网络流量异常检测技术自提出以来,经过多年发展,诞生了多种检测方法,但这些方法通常都存在一定缺陷。因此,如何进一步提高检测准确性、减少误报率仍然是国内外学者的研究热点。其中,许多方法都集中在使用流量分布来诊断异常,如Thottan[4]使用单独的MIB变量的统计分布来检测网络流量的突然变化。在各种异常统计检测技术中,基于熵的方法已被证明在检测异常的流量矩阵时间序列中的准确性和效率。张航等[5]利用最大值和相对熵建立了一种基于行为的异常检测方法。以最大熵为基础的基线分布由预先标记的训练数据构成,但该基线适应网络流量动态变化的机制仍然不清楚。本文提出一个机制,根据动态网络流量在测量期间的变化来构建自适应基线,并调整基线在一个特定的时间跨度内。
在线检测异常受大流量数据的实时统计影响。吴静等[6]采用五元组流分布(即源地址、目的地址、源端口、目的端口、协议)进行流量分析,导致内存和处理能力的高开销。一些网络入侵检测系统,如FlowMatrix与Snort匹配数据包到一个预定义的规则集,使它们无法检测未知异常[7]。本文认为地址和端口具有高相关性,并使用地址作为独特的度量来代替元组,用于检测异常度分布的熵,不仅可减轻计算过程中在线分析阶段的开销,而且在发现新的异常类型方面比常规方法效果更好。
2 基础理论
大多数流量异常都有一个共同特点,它们诱导流量头特征分布的异常变化,如源地址、目的地址与端口,一般显示出分散或集中分布的现象[8]。
例如,图1显示了3种类型攻击的流量特征分布。图1(a)显示了一个典型的分布式拒绝服务(DDoS)攻击。在这种情况下,大量主机发送信息到一个特定主机。同样,许多网络蠕虫通过发送随机探测,即到随机区域产生大量目的地IP地址,从而使受感染的计算机继续感染其它脆弱的计算机,如图1(b)所示。在一些扫描事件中,一个源IP地址随机扫描多个IP地址,如图1(c)所示。
从以上分析得知,网络流量发生异常时,会使源/目的地址、源/目的端口分布出现变化(见表1)。接下来需要研究:①采用什么指标可以准确配置这些异常流量特征,并明确表明上述攻击的发生;②如何有效地量化异常大小,并揭示非正常的流量行为。
3 诊断方法
3.1 系统模型
总体架构包括3个主要功能部分:处理引擎(后端)、数据库和WebGUI(前端)。处理引擎执行显式算法WebGUI和数据库之间的通信。引擎主要实现以下几方面任务:①接收NetFlow记录的数据,如路由器、交换机、防火墙等,并以一个特定方式将数据通过缓冲存储到数据库;②获得相关参数后,可通过使用SQL查询来计算熵值度分布的原始流量数据;③根据测量期间的网络状态自动调整检测阈值。流量统计数据库提供了结构化存储,简化了熵值的分布程度计算。WebGUI前端可通过图形方式显示检测结果。
3.2 算法设计
进行在线流量分析时,要提高异常检测精度,减少计算时的开销,异常检测的流程与算法必须是轻量级的。首先,设计一个数据源和数据库之间的缓冲区进行存储和检索。其次,考虑到许多攻击一般只有几分钟时间,如DDoS攻击一般只持续两分钟,因此要设置一个有限的时间段作为一个基本测量时间窗口的度量单位。
从概念上讲,该算法可以分为3个阶段:在第一阶段,配置Netflow在特定时间段内的页面流量统计,根据训练数据和预定义的阈值熵排除异常值,以便在测量期间准确校准基线。自适应阈值在检测过程中生效;第二阶段为处理阶段,滑动时间窗口时,计算该窗口中流量特征的熵值;第三阶段为后处理阶段,设置阈值为下一个检测过程的计算均值熵和方差。该算法的伪代码如下:
4 结语
本文介绍了基于度分布的流量异常在线检测方法,该方法具有以下优点:①可以准确、高效地使用流量头特征捕捉细粒度的流量模式分布,不仅减少了在线处理时间,也提高了检测能力;②利用熵可以提高检测灵敏度的特点来发现已知或未知的流量异常,并将其量化;③具备一种可降低误警率的自适应阈值。下一步工作是进一步分析流量异常特征,寻找诊断网络异常的方法。此外,降低报警延迟也是需要考虑的问题之一。
参考文献:
[1] 王秀英,邵志清,陈丽琼.异常流量检测中的特征选择[J].计算机工程与应用,2010(28):129131.
[2] 崔锡鑫,苏伟,刘颖.基于熵的流量分析和异常检测技术研究与实现[J].计算机技术与发展,2013(5):126129.
[3] 郑黎明,邹鹏,韩伟红.基于多维熵值分类的骨干网流量异常检测研究[J].计算机研究与发展,2012(9):154163.
[4] THOTTAN M,JI C.Anomaly detection in IP networks[J].IEEE Transation on Signal Processing,2003,51(8):21912204.
[5] 赵飞翔,张航,何小海.基于多层分块的异常行为检测算法[J].科学技术与工程,2015(10):112116.
中图分类号:TP393 文献标识码:A文章编号:1007-9599 (2010) 14-0000-01
The Flow Monitoring Method of Network Management
Li Jiabin
(Ocean University of China,Qingdao266100,China)
Abstract:With the rapid development of modern network technology,by network flow monitoring,to detect traffic anomaly within the enterprise LAN host,or set the threshold according to the system early warning so as to better protect the normal course of business demand for network bandwidth ,is the inevitable requirement of the development of network technology.In this paper,the characteristics of network traffic,network traffic measurement has done a study,so as to optimize the traffic monitoring technology made a number of recommendations.
Keywords:Network management;Network flow;Monitoring
企业局域网的广泛应用为广大企业带来了快速的信息响应、办公效率的大幅提升、经营成本的降低等众多好处。但同时,随着网络技术突飞猛进的发展,网络应用五花八门,企业也不得不面对越来越多的恶意网络攻击与黑客入侵。目前,企业局域网网络安全综合应用了防火墙、入侵监测、漏洞扫描、补丁分发等安全产品,致力于建设集访问控制、流量监测、带宽管理及终端管理等功能与一体的安全管理平台。通过对网络流量的监测,及时发现企业局域网内流量异常的主机,或者根据系统设置的阈值提前预警,从而更好的保护正常业务对网络带宽的需求。所以,网络流量监测是实现对企业局域网运行状况掌握与管理的有效手段。
一、网络流量的特征
(一)数据流是双向的,但通常是非对称的。互联网上大部分的应用都是双向交换数据的,因此网络的流是双向的。但是两个方向上的数据率有很大的差异,这是因为从网站下载时会导致从网站到客户端方向的数据量比另外一个方向多。(二)大部分TCP会话是短期的。超过90%的TCP会话交换的数据量小于IOK字节,会话持续时间不超过几秒。虽然文件传输和远程登陆这些TCP对话都不是短期的,但是由于80%的www文档传输都小于IOK字节,WWW的巨大增长使其在这方面产生了决定性的影响。(三)包的到达过程不是泊松过程。大部分传统的排队理论和通信网络设计都假设包的到达过程是泊松过程。简单的说,泊松到达过程就是事件按照一定的概率独立的发生。泊松模型因为指数分布的无记忆性也就是事件之间的非相关性而使其在应用上要比其他模型更加简单。(四)网络通信量具有局域性。互联网流量的局域性包括时间局域性和空间局域性。用户在应用层对互联网的访问反映在包的时间和源及目的地址上,从而显示出基于时间的相关和基于空间的相关。
二、网络流量的测量
网络流量的测量是人们研究互联网络的一个工具,通过采集和分析互联网的数据流,我们可以设计出更加符合实际的网络设备和更加合理的网络协议。计算机网络不是永远不会出错的,设备的一小点故障都有可能使整个网络瘫痪,或者使网络性能明显下降。对互联网流量的测量可以为网络管理者提供详细的信息以帮助发现和解决问题。互联网流量的测量从不同的方面可以分为:
(一)基于硬件的测量和基于软件的测量。基于硬件的测量通常指使用为采集和分析网络数据而特别设计的专用硬件设备进行网络流的测量,这些设备一般都比较昂贵,而且受网络接口数量,网络插件的类型,存储能力和协议分析能力等诸多因素的限制。基于软件的测量通常依靠修改工作站的内核中的网络接口部分,使其具备捕获网络数据包的功能。与基于硬件的方法比较,其费用比较低廉,但是性能比不上专用的网络流量分析器。(二)主动测量和被动测量。被动测量只是记录网络的数据流,不向网络流中注入任何数据。大部分网络流量测量都是被动的测量。主动测量使用由测量设备产生的数据流来探测网络而获知网络的信息。例如使用ping来估计到某个目的地址的网络延时。(三)在线分析和离线分析。有的网络流量分析器支持实时地收集和分析网络数据,使用可视化手段在线地显示流量数据和分析结果,大部分基于硬件的网络分析器都具有这个能力。离线分析只是在线地收集网络数据,把数据存储下来,并不对数据进行实时的分析。(四)协议级分类。对于不同的协议,例如以太网,帧中继,异步传输模式,需要使用不同的网络插件来收集网络数据,因此也就有了不同的通信量测试方法。
三、网络流量的监测技术
根据对网络流量的采集方式可将网络流量监测技术分为:基于网络流量全镜像的监测技术、基于SNMP的监测技术和基于Netflow的监测技术三种常用技术。
(一)基于网络流量全镜像的监测技术。网络流量全镜像采集是目前IDS主要采用的网络流量采集模式。其原理是通过交换机等网络设备的端口镜像或者通过分光器、网络探针等附加设备,实现网络流量的无损复制和镜像采集。和其它两种流量采集方式相比,流量镜像采集的最大特点是能够提供丰富的应用层信息。(二)基于Netflow的流量监测技术。Netflow流量信息采集是基于网络设备提供的Netflow机制实现的网络流量信息采集。(三)基于SN的流量监测技术。基于SNMP的流量信息采集,实质上是通过提取网络设备Agent提供的MIB中收集一些具体设备及流量信息有关的变量。基于SNMP收集的网络流量信息包括:输入字节数、输入非广播包数、输入广播包数、输入包丢弃数、输入包错误数、输入未知协议包数、输出字节数、输出非广播包数、输出广播包数、输出包丢弃数、输出包错误数、输出队长等。在此基础上实现的流量信息采集效率和效果均能够满足网络流量监测的需求。
在综合比较三种技术之后,不难得出以下结论:基于SNMP的流量监测技术能够满足网络流量分析的需要,且信息采集效率高,适合在各类网络中应用。
Network Traffic Monitoring in Network Management
Wang Lei
(Hunan Women’s University,Changsha410004,China)
Abstract:This article study from the network traffic characteristics,internet traffic measurement,etc,so as to optimize some suggestions for traffic monitoring technologies.
Keywords:Network management;Network traffic;Monitoring
一、网络流量的特征
(一)数据流是双向的,但通常是非对称的
互联网上大部分的应用都是双向交换数据的,因此网络的流是双向的。但是两个方向上的数据率有很大的差异,这是因为从网站下载时会导致从网站到客户端方向的数据量比另外一个方向多。
(二)大部分TCP会话是短期的
超过90%的TCP会话交换的数据量小于10K字节,会话持续时间不超过几秒。虽然文件传输和远程登陆这些TCP对话都不是短期的,但是由于80%的WWW文档传输都小于10K字节,WWW的巨大增长使其在这方面产生了决定性的影响。
(三)包的到达过程不是泊松过程
大部分传统的排队理论和通信网络设计都假设包的到达过程是泊松过程,即包到达的间断时间的分布是独立的指数分布。简单的说,泊松到达过程就是事件(例如地震,交通事故,电话等)按照一定的概率独立的发生。泊松模型因为指数分布的无记忆性也就是事件之间的非相关性而使其在应用上要比其他模型更加简单。然而近年来对互联网络通信量的测量显示包到达的过程不是泊松过程。包到达的间断时间不仅不服从指数分布,而且不是独立分布的。大部分时候是多个包连续到达,即包的到达是有突发性的。很明显,泊松过程不足以精确地描述包的到达过程。造成这种非泊松结构的部分原因是数据传输所使用的协议。非泊松过程的现象迫使人们怀疑使用简单的泊松模型研究网络的可靠性,从而促进了网络通信量模型的研究。
(四)网络通信量具有局域性
互联网流量的局域性包括时间局域性和空间局域性。用户在应用层对互联网的访问反映在包的时间和源及目的地址上,从而显示出基于时间的相关(时间局域性)和基于空间的相关(空间局域性)。
二、网络流量的测量
网络流量的测量是人们研究互联网络的一个工具,通过采集和分析互联网的数据流,我们可以设计出更加符合实际的网络设备和更加合理的网络协议。计算机网络不是永远不会出错的,设备的一小点故障都有可能使整个网络瘫痪,或者使网络性能明显下降。例如广播风暴、非法包长、错误地址、安全攻击等。对互联网流量的测量可以为网络管理者提供详细的信息以帮助发现和解决问题。互联网流量的测量从不同的方面可以分为:
(一)基于硬件的测量和基于软件的测量
基于硬件的测量通常指使用为采集和分析网络数据而特别设计的专用硬件设备进行网络流的测量,这些设备一般都比较昂贵,而且受网络接口数量,网络插件的类型,存储能力和协议分析能力等诸多因素的限制。基于软件的测量通常依靠修改工作站的内核中的网络接口部分,使其具备捕获网络数据包的功能。与基于硬件的方法比较,其费用比较低廉,但是性能比不上专用的网络流量分析器。
(二)主动测量和被动测量
被动测量只是记录网络的数据流,不向网络流中注入任何数据。大部分网络流量测量都是被动的测量。主动测量使用由测量设备产生的数据流来探测网络而获知网络的信息。例如使用ping来估计到某个目的地址的网络延时。
(三)在线分析和离线分析
有的网络流量分析器支持实时地收集和分析网络数据,使用可视化手段在线地显示流量数据和分析结果,大部分基于硬件的网络分析器都具有这个能力。离线分析只是在线地收集网络数据,把数据存储下来,并不对数据进行实时的分析。
(四)协议级分类
对于不同的协议,例如以太网(Ethernet),帧中继(Frame Relay),异步传输模式(Asynchronous Transfer Mode),需要使用不同的网络插件来收集网络数据,因此也就有了不同的通信量测试方法。
三、网络流量的监测技术
根据对网络流量的采集方式可将网络流量监测技术分为:基于网络流量全镜像的监测技术、基于SNMP的监测技术和基于Netflow的监测技术三种常用技术。
(一)基于网络流量全镜像的监测技术
网络流量全镜像采集是目前IDS主要采用的网络流量采集模式。其原理是通过交换机等网络设备的端口镜像或者通过分光器、网络探针等附加设备,实现网络流量的无损复制和镜像采集。和其它两种流量采集方式相比,流量镜像采集的最大特点是能够提供丰富的应用层信息。
(二)基于Netflow的流量监测技术
Netflow流量信息采集是基于网络设备提供的Netflow机制实现的网络流量信息采集。
中图分类号:TP393.1 文献标识码:A 文章编号:1672-3791(2013)05(b)-0249-02
随着高等教育信息化的发展,高等教育对于网络的依赖日渐增加,同时高校校园网的出口带宽要求也越来越高。但是受到资金、出口建设成本和网络技术等方面的限制,高校校园网出口带宽不可能无限提高,由此导致了高校校内用户日益增长的网络需求与出口带宽限制网络流量之间的矛盾。而通过对出口网络数据进行深层次应用分析制定相关策略能够在一定程度上缓解这一矛盾。
1 网络流量分析及控制的关键技术
网络流量分析及控制是指对数据包进行检测,并通过制定的策略对网络应用实现放行、限制或阻塞的技术。现今P2P类下载应用占用了大量的带宽资源,导致网络的拥堵和服务质量的下降。为了保证用户能够平等的使用网络带宽,需要采取必要的技术对P2P等应用进行一定程度的检测与调控。目前主要的分析控制技术如下。
1.1 传统防火墙对网络流量的分析及控制
传统防火墙都工作在OSI参考模型的第2、3、4层,通过对TCP/UDP端口、数据包的源/目的IP地址、MAC地址等进行过滤,实现对网络流量的监视。一般都是对数据包的包头来做策略,并不关心整个数据包的信息。传统防火墙对网络流量的处理方法一般都是阻塞某种协议常用端口,或者阻断客户端与服务器的连接等。由于不能有效的分析数据包内部信息,不能有效的了解用户应用层的信息,也就不能有效的限制用户的应用。采用传统防火墙阻断服务器与客户端连接的方法也已经不能准确的识别与控制。
1.2 DPI技术
深度报文检测技术DPI(Deep Packet Inspectio)是在分析数据包包头的基础上,增加了对OSI参考模型第七层即应用层的分析。当IP数据包、TCP、UDP数据流经过基于DPI技术的流量控制系统时,通过深入读取数据包的内容来对应用层信息进行重组,从而得到整个应用程序的内容,然后按照系统定义的管理策略对流量进行整形操作。DPI技术可以分为两大类:(1)使用特征字与掩码相结合进行协议识别的DPI技术;(2)使用正则表达式库进行协议识别的DPI技术。
2 高校校园网络的现状
目前大部分高校都已建成完善的园区网,普遍采用传统的三层结构(核心层、汇聚层和接入层),并租用运营商电路实现与互联网的高速对接。
校园网的主要特点是学生是网络的主要用户。随着网络技术的发展,学生作为社会最活跃的团体,对于网络新兴服务需求迫切,尤其是视频服务。造成的结果是对网络带宽的占用比例极高,造成传统服务的服务质量下降。
以我院为例,我院校园网络始建于2008年,网络已覆盖教学、办公、生活等区域,其中学生宿舍网络出口带宽所占比例达到80%以上,其中多以视频、P2P应用为主。
3 采用流量控制技术调整出口应用
在具体实现方面,采用了Panabit软件。Panabit是北京派网软件公司开发的免费的应用层流量控制系统,是基于稳定性极高的FreeBSD开发的。可在浏览器中对系统进行图形化管理,界面友好,操作简便。
3.1 Panabit流量控制系统的部署
(1)安装。
Panabit需要独立安装在一台计算机中,硬件配置要求如表1。
由表1可见,对于目前PC的硬件水平完全可以满足安装需要,只需要在计算机中多加装两块网卡即可。
Panabit的硬件部署在网络出口上。配置的3块网卡,1块用于管理Panabit管理系统,另外2块分别用于采集上传和下载流量的数据。
(2)Panabit系统的初始化配置。
①首先配置系统的IP地址等基础信息(在此全部都采用校园网内部私有地址),以便远程管理(采用HTTPS协议)。
②选择网络配置下的“数据接口”选项,两块网卡的“应用模式”均选择为“透明网桥”。
3.2 Panabit系统的流量控制策略的配置
(1)分配带宽。
Panabit对带宽的分配有三种模式:即带宽限制,带宽保证,带宽预留。根据我院对网络需求的实际情况,采用了带宽保证模式。下面对带宽保证模式进行详细的说明:首先,带宽保证模式也具有带宽预留模式的功能,即对特定IP组、特定协议预留出足够的带宽。例如教学、办公IP组,教务系统的ITSP协议等。在此基础上,带宽保证在其预留的带宽不能满足应用要求的时候,会从剩余的总带宽里借用所需带宽。例如每学期开学和学期末,学生大量选课,可以对选课系统的SSL等协议进行带宽保证设置。
(2)建立策略组。
可以根据数据包的源地址、目的地址、应用协议等建立策略组。
3.3 系统测试与分析
4 结语
为了提高网络带宽的利用率,使高校校园网络的使用更趋合理,网络流量分析及控制势在必行,同时也是非常有效的手段。互联网飞速发展,网络流量分析及控制也随之快速发展,为高校的教学等工作提供了稳定的网络基础,使教学信息管理系统和教学资源共享平台的搭建更为安全、高效。为高校的信息化教学做出了贡献。
参考文献
[1] 刘剑锋.部署运维管理平台提高校园网运维水平[J].中国教育技术装备,2011(10).
【关键词】综合数据网 异常流量 支持向量机
1 某电网综合数据网流量分析现状
目前某电网公司综合业务数据网以主数据中心和同城灾备中心为核心,与全省各地供电局的综合数据网络核心形成互联,互联链路采用万兆以太网传输技术,形成一个电网综合数据业务传输的承载网平台。具体网络拓扑如下所示:
该电网公司综合数据网络核心日常数据流量已超过1GB,流量监控使用ARBOR流量分析设备来完成,通过Netflow的方式监测骨干层各中心汇聚设备连接到省中心的端口。
目前,该电网公司流量分析系统具备的主要功能包括:
(1)能够得到端到端用户体检的量化数据,包括端到端的全过程响应时间。
(2)能够得到网络传输时延的数据,并考虑到不同数据包大小情况的网络传输时延。
(3)能够得到应用系统各个交互过程的响应时间的数据。
(4)能够根据时间迅速定位流量,并根据地址、端口等信息迅速将所需网络流量数据包检索并抽取出来进行分析。
由以上功能点的统计分析,可以得知,目前该电网的流量分析系统能做到对网络流量的统计及性能分析,但对网络流量异常的做不到良好的预警。
2 流量异常检测方法
自Denning研究异常检测模型以来,网络异常检测方法的研究就一直受到学术界的极大关注。白玉峰研究致力于利用流量大小(如流数、分组数或字节数)来检测网络异常并获得巨大成功,但是这类方法面临的问题是:并非所有的异常都会引起流量大小的显著变化;此外,采用不同的流量测度可能会识别出不同的流量异常,因此仅仅采用一种流量测度并不能识别蕴含在流量数据中的所有异常。
近年来的大量研究表明,不管是局域网还是广域网,网络流量都具有明显的突发性和长相关性,而网络的自相似性特性可以很好地描述流量这些特性,所以,自相似性已成为网络流量的重要特性并以此作为流量异常检测的基础。现今已有大量计算机学科领域的算法和模型被使用在网络流量的异常检测方面,文献采用小波分析方法利用网络流量在时间尺度上的多重分形,在小波域内对网络流量进行分解,通过计算网络流量的Hurst指数,根据正常与异常流量Hurst指数的偏差来检测异常,但该方法Hurst指数与时间尺度紧密相关,只对突发性的流量具有较好的检测效果;文献[1]提出一种融合k-means的聚类检测算法,该文增量地构建流量矩阵,增量地使用PCA主成分进行异常检测,这些方法在全网流量异常时检测效果非常明显,但算法相对过于复杂使其在实时性上较差;文献[2] 使用一种基于信息熵的特征选择算法,降低了检测数据的维数,但增量学习的限制条件比较多,增量学习效率较低。
3 综合数据网流量异常检测
通过上述分析可以看出,数据流五元组的熵值较为稳定,可以通过熵值的变化情况来区分正常流量和异常流量。因此综合数据网异常流量的检测问题也就是通过对数据流量五元组熵值的分析来做出正常或异常的判断。
3.1 异常流量检测模型
针对上文中对流量特性的分析,综合数据网异常流量的检测问题可以理解为通过已有的流量特征据,将现有的流量分类为正常或异常。模式识别理论是利用已有的信息,按照某种特定的规则确定未知的样本的类别属性,模式识别往往被看作是分类问题,让机器自身从环境中分离出某种模式并对未知样本的归类做出合理的判断。因此,可以将模式识别应用于综合数据网的异常力量检测,通过对己有的数据流量的熵值样本进行学习,建立规律模型,利用该模型对未知样本进行分类。
3.2 异常检测算法
首先使用一定数量的正常流量和异常流量数据作为训练样本输入到支持向量机之中,根据这些训练数据输出一个模型,这个模型实际上就是通过样本构造的决策函数。然后将测试数据输入该模型进行分类。
3.2.1 训练阶段
根据信息熵的定义,对样本流量的五元组分别求熵,建立样本流量的五维熵值向量。使用核函数将向量从五维变换到高位,再将数据作为训练样本输入到支持向量机之中,根据这些训练数据构造的一个决策函数。
3.2.2 检测阶段
将检测流量输入模型进行检测,分类结果为1则为正常流量,分类结果为-1即为异常流量。
4 结束语
本文通过对电力综合数据网的流量数据结构进行分析,验证了电力综合数据网正常数据符合重尾分布,且正常单位流量具有稳定的信息熵。在此基础,对综合数据网流量结构进行建模,采用支持向量机的识别算法对异常流量进行识别。实验结果表明,在异常流量比例大于5%的条件下,算法能够检测出网络中的异常数据。
下一步的工作是深入研究电力综合数据网异常流量的类型以及各种异常流量对流量结构的影响,改进检测算法,进一步提升算法的精度。
参考文献
[1]DENNING D.An intrusion-detection model[J].IEEE Transactions on Software Engineering,1987,13(2):222-232.
[2]TORRES R,HAJJAT M,RAO SG,et al.Inferring undesirable behavior from P2P traffic analysis[A].SIGMETRICS[C].USA,2009,231-242.
网络流量性能测量与分析涉及许多关键技术,如单向测量中的时钟同步问题,主动测量与被动测量的抽样算法研究,多种测量工具之间的协同工作,网络测量体系结构的搭建,性能指标的量化,性能指标的模型化分析,对网络未来状态进行趋势预测,对海量测量数据进行数据挖掘或者利用已有的模型(petri网、自相似性、排队论)研究其自相似特征,测量与分析结果的可视化,以及由测量所引起的安全性问题等等。
1.在IP网络中采用网络性能监测技术,可以实现
1.1 合理规划和优化网络性能
为更好的管理和改善网络的运行,网络管理者需要知道其网络的流量情况和尽量多的流量信息。通过对网络流量的监测、数据采集和分析,给出详细的链路和节点流量分析报告,获得流量分布和流向分布、报文特性和协议分布特性,为网络规划、路由策略、资源和容量升级提供依据。
1.2 基于流量的计费
现在lSP对网络用户提供服务绝大多数还是采用固定租费的形式,这对一般用户和ISP来说,都不是一个好的选择。采用这一形式的很大原因就是网络提供者不能够统计全部用户的准确流量情况。这就需要有方便的手段对用户的流量进行检测。通过对用户上网时长、上网流量、网络业务以及目的网站数据分析,摆脱目前单一的包月制,实现基于时间段、带宽、应用、服务质量等更加灵活的交费标准。
1.3 网络应用状况监测与分析
了解网络的应用状况,对研究者和网络提供者都很重要。通过网络应用监测,可以了解网络上各种协议的使用情况(如www,pop3,ftp,rtp等协议),以及网络应用的使用情况,研究者可以据此研究新的协议与应用,网络提供者也可以据此更好的规划网络。
1.4 实时监测网络状况
针对网络流量变化的突发性特性,通过实时监测网络状况,能实时获得网络的当前运行状况,减轻维护人员的工作负担。能在网络出现故障或拥塞时发出自动告警,在网络即将出现瓶颈前给出分析和预测。现在随着Internet网络不断扩大,网络中也经常会出现黑客攻击、病毒泛滥的情况。而这些网络突发事件从设备和网管的角度看却很难发现,经常让网络管理员感到棘手。因此,针对网络中突发性的异常流量分析将有助于网络管理员发现和解决问题。
1.5 网络用户行为监测与分析
这对于网络提供者来说非常重要,通过监测访问网络的用户的行为,可以了解到:
1)某一段时间有多少用户在访问我的网络。
2)访问我的网络最多的用户是哪些。
3)这些用户停留了多长时间。
4)他们来自什么地方。
5)他们到过我的网络的哪些部分。
通过这些信息,网络提供者可以更好的为用户提供服务,从而也获得更大的收益。
2.网络流量测量有5个要素:
测量时间、测量对象、测量目的、测量位置和测量方法。网络流量的测量实体,即性能指标主要包括以下几项。 2.1 连接性
连接性也称可用性、连通性或可达性,严格说应该是网络的基本能力或属性,不能称为性能,但ITU-T建议可以用一些方法进行定量的测量。
2.2 延迟
对于单向延迟测量要求时钟严格同步,这在实际的测量中很难做到,许多测量方案都采用往返延迟,以避开时钟同步问题。
2.3 丢包率
为了评估网络的丢包率,一般采用直接发送测量包来进行测量。目前评估网络丢包率的模型主要有贝努利模型、马尔可夫模型和隐马尔可夫模型等等。
2.4 带宽
带宽一股分为瓶颈带宽和可用带宽。瓶颈带宽是指当一条路径(通路)中没有其他背景流量时,网络能够提供的最大的吞吐量。
2.5 流量参数
ITU-T提出两种流量参数作为参考:一种是以一段时间间隔内在测量点上观测到的所有传输成功的IP包数量除以时间间隔,即包吞吐量;另一种是基于字节吞吐量:用传输成功的IP包中总字节数除以时间间隔。
3.测量方法
Internet流量数据有三种形式:被动数据(指定链路数据)、主动数据(端至端数据)和BGP路由数据,由此涉及两种测量方法:被动测量方法和主动测量方法然而,近几年来,主动测量技术被网络用户或网络研究人员用来分析指定网络路径的流量行为。
3.1 主动测量
主动测量的方法是指主动发送数据包去探测被测量的对象。以被测对象的响应作为性能评分的结果来分析。测量者一般采用模拟现实的流量(如Web Server的请求、FTP下载、DNS反应时间等)来测量一个应用的性能或者网络的性能。由于测量点一般都靠近终究端,所以这种方法能够代表从监测者的角度反映的性能。
3.2 被动测量
被动测量是在网络中的一点收集流量信息,如使用路由器或交换机收渠数据或者一个独立的设备被动地监测网络链路的流量。被动测量可以完全取消附加流量和Heisenberg效应,这些优点使人们更愿意使用被动测量技术。有些测度使用被动测量获得相当困难:如决定分缩手缩脚一所经过的路由。但被动测量的优点使得决定测量之前应该首先考虑被动测量。被动测量技术遇到的另一个重要问题是目前提出的要求确保隐私和安全问题。
3.3 网络流量抽样测量技术
选择部分报文,当采样时间间隔较大时,细微的网络行为变化就无法精确探测到。反之,抽样间隔过小时,又会占用过多的带宽及需要更大的存储能力。采样方法随采样策略的不同而不同,如系统采样或随机采样;也随触发采样事件的不同而不同。如由报文到达时间触发(基于时间采样),由报文在流中所处的位置触发(基于数目采样)或由报文的内容触发(基于内容采样)。为了在减少采样样本和获取更精确的流量数据之间达到平衡。
网络流量性能测量和分析涉及许多关键技术,如单向测量中的时钟同步新问题,主动测量和被动测量的抽样算法探究,多种测量工具之间的协同工作,网络测量体系结构的搭建,性能指标的量化,性能指标的模型化分析,对网络未来状态进行趋向猜测,对海量测量数据进行数据挖掘或者利用已有的模型(petri网、自相似性、排队论)探究其自相似特征,测量和分析结果的可视化,以及由测量所引起的平安性新问题等等。
1.在IP网络中采用网络性能监测技术,可以实现
1.1合理规划和优化网络性能
为更好的管理和改善网络的运行,网络管理者需要知道其网络的流量情况和尽量多的流量信息。通过对网络流量的监测、数据采集和分析,给出具体的链路和节点流量分析报告,获得流量分布和流向分布、报文特性和协议分布特性,为网络规划、路由策略、资源和容量升级提供依据。
1.2基于流量的计费
现在lSP对网络用户提供服务绝大多数还是采用固定租费的形式,这对一般用户和ISP来说,都不是一个好的选择。采用这一形式的很大原因就是网络提供者不能够统计全部用户的准确流量情况。这就需要有方便的手段对用户的流量进行检测。通过对用户上网时长、上网流量、网络业务以及目的网站数据分析,摆脱目前单一的包月制,实现基于时间段、带宽、应用、服务质量等更加灵活的交费标准。
1.3网络应用状况监测和分析
了解网络的应用状况,对探究者和网络提供者都很重要。通过网络应用监测,可以了解网络上各种协议的使用情况(如www,pop3,ftp,rtp等协议),以及网络应用的使用情况,探究者可以据此探究新的协议和应用,网络提供者也可以据此更好的规划网络。
1.4实时监测网络状况
针对网络流量变化的突发性特性,通过实时监测网络状况,能实时获得网络的当前运行状况,减轻维护人员的工作负担。能在网络出现故障或拥塞时发出自动告警,在网络即将出现瓶颈前给出分析和猜测。现在随着Internet网络不断扩大,网络中也经常会出现黑客攻击、病毒泛滥的情况。而这些网络突发事件从设备和网管的角度看却很难发现,经常让网络管理员感到棘手。因此,针对网络中突发性的异常流量分析将有助于网络管理员发现和解决新问题。
1.5网络用户行为监测和分析
这对于网络提供者来说非常重要,通过监测访问网络的用户的行为,可以了解到摘要:
1)某一段时间有多少用户在访问我的网络。
2)访问我的网络最多的用户是哪些。
3)这些用户停留了多长时间。
4)他们来自什么地方。
5)他们到过我的网络的哪些部分。
通过这些信息,网络提供者可以更好的为用户提供服务,从而也获得更大的收益。
2.网络流量测量有5个要素摘要:
测量时间、测量对象、测量目的、测量位置和测量方法。网络流量的测量实体,即性能指标主要包括以下几项。2.1连接性
连接性也称可用性、连通性或可达性,严格说应该是网络的基本能力或属性,不能称为性能,但ITU-T建议可以用一些方法进行定量的测量。
2.2延迟
对于单向延迟测量要求时钟严格同步,这在实际的测量中很难做到,许多测量方案都采用往返延迟,以避开时钟同步新问题。
2.3丢包率
为了评估网络的丢包率,一般采用直接发送测量包来进行测量。目前评估网络丢包率的模型主要有贝努利模型、马尔可夫模型和隐马尔可夫模型等等。
2.4带宽
带宽一股分为瓶颈带宽和可用带宽。瓶颈带宽是指当一条路径(通路)中没有其他背景流量时,网络能够提供的最大的吞吐量。
2.5流量参数
ITU-T提出两种流量参数作为参考摘要:一种是以一段时间间隔内在测量点上观测到的所有传输成功的IP包数量除以时间间隔,即包吞吐量;另一种是基于字节吞吐量摘要:用传输成功的IP包中总字节数除以时间间隔。
3.测量方法
Internet流量数据有三种形式摘要:被动数据(指定链路数据)、主动数据(端至端数据)和BGP路由数据,由此涉及两种测量方法摘要:被动测量方法和主动测量方法然而,近几年来,主动测量技术被网络用户或网络探究人员用来分析指定网络路径的流量行为。
3.1主动测量
主动测量的方法是指主动发送数据包去探测被测量的对象。以被测对象的响应作为性能评分的结果来分析。测量者一般采用模拟现实的流量(如WebServer的请求、FTP下载、DNS反应时间等)来测量一个应用的性能或者网络的性能。由于测量点一般都靠近终究端,所以这种方法能够代表从监测者的角度反映的性能。
3.2被动测量
被动测量是在网络中的一点收集流量信息,如使用路由器或交换机收渠数据或者一个独立的设备被动地监测网络链路的流量。被动测量可以完全取消附加流量和Heisenberg效应,这些优点使人们更愿意使用被动测量技术。有些测度使用被动测量获得相当困难摘要:如决定分缩手缩脚一所经过的路由。但被动测量的优点使得决定测量之前应该首先考虑被动测量。被动测量技术碰到的另一个重要新问题是目前提出的要求确保隐私和平安新问题。
3.3网络流量抽样测量技术
关键词:DPI;智能流量管理系统;管理策略
Campus Network Application Layer Traffic Monitoring and Flow Control Equipment to Study
TAO Wei-tian
(Network Management Center of Traditional Chinese Medicine in Gansu, Lanzhou 730000, China)
Abstract: With exports of campus network bandwidth increases and new applications development, the traditional port and IP-based traffic management difficult to meet the requirements, and has brought various problems. With quantitative analysis based on network planning and optimization is particularly important and urgent.
With the actual faces to the campus network, we should draw the network application-level monitoring technology, use-related flow control equipment, good flow control, only to allow the smooth operation of the dual network to educate the public, limited bandwidth, the effective application of resources, but also improve the network performance.
Key words: DPI; intelligent traffic management system; management strategy
随着大学校园上网规模的增加,BT、P2P、视频下载等应用风行,尽管已经多次升级线路带宽,却发现上网还是卡,带宽还是不够用。各式病毒攻击也伴随而来,更是恼人的问题。使得校园网流量管理变得异常困难,大量带宽被非核心业务占用,而传统的基于端口和IP的流量管理难以满足要求;面对众多的用户及复杂多元的网络应用,给校园网络管理带来很大的威胁,网络管理人员经常遭遇下列问题:网络占用率较高不能查明原因、带宽不足需优化而缺乏统计数据、网络突然中断不能查明原因等、希望获得详细的网络管理报表用来网络优化或升级需要而没有现成资料。
针对上述校园网络实际面临到的问题,我认为追根究底是要做好流量管控,使用应用层流量分析管理技术和产品,即可实现这方面的管理效果,这就需要做到:1) 了解网络应用流量监测技术;2) 合理的使用流量管理产品。下面,分别就这两方面做以阐述:
1 网络应用流量监测原理及办法
我们知道,传统的流量和带宽管理是基于OSI L2~L4层,通过IP包头的五元组(源地址、目的地址、源端口、目的端口以及协议类型)信息进行分析,通常我们称此为“普通报文检测”。“普通报文检测”仅分析IP包的4层以下的内容,通过端口号来识别应用类型。而当前网络上的一些应用会采用隐藏或假冒端口号的方式躲避检测和监管,造成仿冒合法报文的数据流侵蚀着网络(例如P2P下载软件大多采用动态协商端口机制),此时采用L2~L4层的传统检测方法就无能为力了。
为了识别诸如基于开放端口、随机端口甚至采用加密方式等进行传输的应用类型,网络流量应用识别基本技术DPI、DFI技术应运而生。也有文献称之为业务识别技术。
1.1网络流量应用识别基本技术
1.1.1 DPI
DPI全称为“Deep Packet Inspection”,称为“深度包检测”。DPI技术在分析包头的基础上,增加了对应用层的分析,是一种基于应用层的流量检测和控制技术。当IP数据包、TCP或UDP数据流经过基于DPI技术的流量管理系统时,该系统通过深入读取IP包载荷的内容,来对OSI 7层协议中的应用层信息进行重组,从而得到整个应用程序的内容,然后按照系统定义的管理策略对流量进行整形操作。
DPI技术通常采用如下的数据包分析方法:
传输层端口分析。许多应用使用默认的传输层端口号,例如HTTP协议使用80端口。
特征字匹配分析。一些应用在应用层协议头,或者应用层负荷中的特定位置中包含特征字段,通过特征字段的识别实现数据包检查、监控和分析。
通信交互过程分析。对多个会话的事务交互过程进行监控分析,包括包长度、发送的包数目等,实现对网络业务的检查、监控和分析。
DPI技术是达到应用层流控目标的基本方法,通过DPI技术,把流细分为对应具体的应用流,在分离流量的基础上,定义带宽通道,从而使网络中的流量根据应用各行其道,优化宽带服务,提高网络运行效率和服务品质,保障关键应用,获得更好的用户体验。
DPI实现应用粒度控制的流程是:识别分析控制报告,其中识别准确度是关键,是评估流控产品的重要指标。
1.1.2 DFI
DFI(Deep/Dynamic Flow Inspection,深度/动态流检测)与DPI进行应用层的载荷匹配不同,采用的是一种基于流量行为的应用识别技术,即不同的应用类型体现在会话连接或数据流上的状态各有不同。DFI更关注于网络流量特征的通用性,因此,DFI技术并不对网络流量进行深度的报文检测,而仅通过对网络流量的状态、网络层和传输层信息、业务流持续时间、平均流速率、字节长度分布等参数的统计分析,来获取业务类型、业务状态。
2 网络流量管理产品
2.1 智能管理
早期的网络流量管理方式是在路由器、防火墙或局域网交换机上使用简单的带宽管理或QOS来实现(至今一些单位的简易流控需求仍沿用这种方式),但这种控制方式需要人为干涉,操作复杂,无法做到智能管理,所以不能满足网络管理中复杂策略的精细程度和灵活程度需要。
智能流量管理系统是一款专业的L7应用层流量管理产品,适用于大中型企业、校园网、城域网等流量大、应用复杂的网络化境;通过监控网络流量,分析流量行为,设置流控策略,分时段、按用户、按应用实现流量控制和带宽保障,全面提升带宽利用价值。智能流量管理系统融合了DPI和DFI两种技术,具有四个显著特征。
1) 精确而广泛的应用识别能力:对应用的识别是进行流量控制的基础。智能流量管理系统应用识别库能覆盖各种主流应用,特别是结合国内网络应用的实际情况,提供对迅雷、QQ等本土应用的识别。另外,智能流量管理系统能够对诸如QQ这种具有即时消息、文件传输、音频视频、游戏等多种子协议的网络应用,提供精细化的子应用识别。
2) 优异的产品性能及安全性保障:智能流量管理系统对用户网络中的所有流量进行处理,能够承受巨大的流量压力,特别是在配置复杂策略情况下,不会造成设备性能的下降。另外,设备是以串接方式接入用户网络,具有良好的安全性,在设备出现运行断电或异常情况时,能够保障用户业务的畅通。
3) 强大的控制能力:智能流量管理系统能够根据用户的实际需求,提供强大而完善的控制手段。通过不同时间段、不同用户、不同网络应用、不同控制动作等条件,实现不同情景下的策略配置。我们知道任何网络流量的使用都和人的因素密不可分,智能流量管理系统能够对用户进行灵活的分类管理,从而使控制策略更加符合实际需要。
4) 清晰而全面的信息查询:智能流量管理系统不仅能实现对网络流量的控制,而且能帮助网络管理者对异常问题进行定位,以及通过网络应用现状的分析实现对网络的优化。智能流量管理系统通过柱状图、饼状图、走势图等图表,以及从不同的分析角度,可向用户提供清晰而全面的实时信息查询、历史日志查询、以及自动生成报表等功能。
2.2 国内外产品介绍
国外厂商,以Cisco SCE、Allot、Packteer、Sendvine、 ACENET、Maxnet。产品特性能好,解决方案和产品成熟,均有用户管理系统(可能为动态IP环境中使用,将用户帐号和流量策略结合来控制流量),除ACENET外,其主流产品功能相对单一,但非常专业。
国内厂商中,比较优秀的有畅讯信通的QQSG、南京信风、宽广、华为SIG、金御等,国内产品适合国情,国内应用的识别率相对国外产品高,存在问题是产品性能宣传强,但实际使用,尤其是在策略较多情况下性能差,个别产品有POS接口(适合部分国内运营商),价格较国外厂商有较大优势,功能较多,但在流量管理领域,属于发展期,不够成熟。
2.3 设备的选择
2.3.1 硬件技术
流量管理设备硬件技术主要有三种:Intel X86架构、ASIC技术和NP技术,由于X86架构处理速度相对较慢,单个芯片的可扩展性较差,所以大部分厂家的低端产品采用X86架构,高端产品采用ASIC或NP技术,以适用于不同的网络环境需求。
2.3.2 工作模式
1) 路由模式:通过网关模式串接在用户网络链路中,所有流量都通过网关处理,对内网用户上网行为和数据包实施控制、拦截、流量管理等功能。若将设备作为Internet 出口网关,设备的防火墙功能保障组织网络安全,NAT功能内网用户上网,实现基本的路由功能等。
2) 网桥模式:同样串接在用户网络链路中,如同连接在出口网关和内网交换机之间的“智能网线”,对流经流控设备的所有数据流进行控制、拦截、流量管理等操作。网桥模式主要适用于不希望更改网络结构、路由配置、IP 配置的用户。
3) 旁路模式:即在出换机中配置镜像端口,将流控设备的广域网口同镜像端口相连,实现对内网数据包的监听。
采用旁路模式部署的流控设备,将与交换机的镜像端口相连,部署实施简单,完全不影响原有的网络结构,降低了网络单点故障的发生概率。
2.3.3 性能要求
1) 应用协议的识别与分类(种类和准确性),流控策略的普适性及长效性;
有些通过应用层特征码来控制P2P的流控策略,如果不能及时更新特征码或特征码变得不可知,就可能导致流控失败,一个近期的例子:BT通讯协议加密及迅雷通讯协议发生变化导致专门的P2P流控设备失效。好的流控设备不依赖于应用的特征码,因此可以经得起时间及应用软件协议变化的考验。
2) 流控策略的全面性
普通设备的只对P2P应用做控制,好的设备对所有流量的带宽、会话数、总流量和应用做控制。由于流量的多样性,单靠一两种策略是不能管理好的,必须实行全面的流控策略才能达到流量管理的目的。
3) 看监控对象及流控策略的精细度
好的设备既可以监控出口网关处的流量又可以监控来源网络的流量分布;
普通设备的控制精度只能达到IP一级或网关一级,好的设备可以对每一源IP的不同应用分别做带宽及会话数的控制,而且只有这样才能保障关键应用及其它应用的服务质量以及相同等级用户上网体验的一致性。
4) 看流量数据存储及处理方式
好的设备可以将流量数据输出到专门的流量分析工作站,将流量存储、分析、统计、查询功能和流量捕捉功能分开,保证了流量分析设备的运行效率和流量数据存储的可持续性。
5) 应尽可能使用性能可靠、管理方便、特别是在有故障时能够自动旁路的设备,避免故障点的出现。
2.4 设备优缺点
流控设备不是万能的,还要了解其缺点。
首先,因为它的工作原理和防病毒一样属于事后起作用,所以其优点是精准,其缺点是:1) 总有部分(10~30%)流量不可识别,例如IP碎片、加密流量等;2) 性能会持续下降,当特征码越来越多时,性能就会越来越低,这种趋势发展到一定程度就会使流控设备成为网络中新的性能瓶颈;3) 由于要频繁更新特征码,因此一、设备后期维护难度大,总体拥有成本高;二、对厂家的依赖程度高,厂家停产、倒闭等不可抗力因素使得购买其产品成为一种赌博行为。其次,要区别对待基于应用层的带宽分析技术和控制技术,确定有未知流量的存在对于7层带宽分析技术来说是一种间接的成果,但是对于基于其上的带宽控制技术来说就是现实的噩梦,因为它要先识别再做控制,所以这部分流量永远无法得到有效的控制,当某种未知流量短期内突然增大时,流控措施就会马上失效,例如,08年新版迅雷的快速普及就导致了不少流控设备失效,特别是一些国外的设备。
3 总结
综上所述,只有做到网络应用流量监测技术和网络流量管理设备的深入了解,才能针对校园网所面临的问题,选择好适合自己需要的网络流量管理设备,做到“心中有数、有的放矢”。
参考文献:
[1] 聂瑞华.基于DPI技术的校园网络带宽管理[J].计算机技术与发展,2009(4).