流量识别系统

2024-06-29

流量识别系统（精选八篇）

流量识别系统篇1

关键词：流量监控,VoIP,在线识别,机器学习,检测机制

0 引言

Vo IP(Voice over Internet Protocol)业务成本低、部署方便,在语音通信业务中的比例持续上升,其发展带来机遇的同时也给网络安全运行带来了巨大挑战[1]。因此,对Vo IP业务进行管控非常重要,高精度在线流量识别也成为众多研究领域的热点与难点。

目前,主流Vo IP流量识别方法主要包括两大类:基于流特征的Vo IP流量识别与基于机器学习的Vo IP流量识别。文献[2]最早利用流特征进行流量分类,提出249种具体的流特征,并提供10组可用的流量数据集。文献[3]针对数据流中一段时间内的数据包长和包时间间隔,统计其分布范围、均值、中值与方差等特征作为Vo IP流量识别的依据。上述文献识别精度不高,基于流特征的识别方法对不同类型的网络流量适应性也较低。基于机器学习的识别方法主要集中于离线识别,对于在线Vo IP流量识别的研究并不多[4,5,6,7]。文献[4]实现了基于WEKA库文件的Skype流量在线检测工具,但存在无net AI工具更新、无可视化界面、算法单一等缺陷。文献[5]改进了支持向量机算法,能够节省1/4的识别时间,但仍然无法满足在线识别的实时性要求。文献[6]基于流统计特征,利用机器学习算法构建分类器模型,系统在线识别精度为93%。其不足之处在于,没有研究在线识别系统的实时性,并不是真正意义上的在线识别。文献[7]基于开源数据挖掘工具WEKA中的机器学习算法,针对特定应用Skype提出并设计出一种基于决策理论的识别工具,然而只能达到82%的精度,无法满足大流量环境下的高精度识别。从目前的研究成果来看,在线识别的难点主要在两方面:一是无法满足较高实时性要求,二是无法实现高精度识别。

针对以上问题,本文设计了Vo IP流量在线识别系统,不仅能实现实时在线识别,且识别精度高达到92%。

1 Vo IP流量在线识别系统

本文所设计的系统中,数据流定义为两个主机之间交换的连续数据包。同一条流中所有数据包的五元组相同(五元组包括源地址、目的地址、源端口、目的端口和传输协议)。构建训练集的过程需对数据包进行分流,根据思科分流定义,单条TCP流须包含完整语义的开始时刻(SYN)和结束时刻(FIN/RST),UDP流中两个包之间的时间间隔不超过30 s[8]。

1.1 在线识别系统原理

在线识别系统分为离线分类器建模和在线识别。其中,离线分类器建模如图1所示,预处理模块对PCAP文件格式的数据集进行分流,并转化为WEKA工具所能识别的CSV文件格式,同时统计每个数据流的流特征构建成训练集。算法学习模块采用Best first search算法和CSF算法去除候选特征中的冗余且不相关的流特征,获得最优特征子集,再调用机器学习算法对训练集进行学习并搭建分类器模型。最后,通过相关指标评估获得最优分类器模型。

如图2所示,本文所设计的在线识别系统建立在获得离线分类器的基础上,提出JPcap边抓包边检测机制,利用JPcap库编写探嗅器控制底层网卡抓取数据包,同时分流模块对数据包分流并统计流特征。设定流量累积时间,每次达到阈值时间30 s,将统计好的数据流作为测试集送入离线状态下构建好的分类器进行识别,并将识别出的Vo IP流量以IP地址的形式输出到系统界面,动态显示网络中Vo IP电话状态。

1.2 预处理模块

预处理模块在离线状态进行,为系统搭建分类器提供完整训练集。该模块包括获取数据集、文件格式转换与分流统计构建训练集。

1.2.1 获取数据集

使用Wireshark软件抓取PC中运行的特定应用类型流量获取数据集,通过配置交换机镜像端口将抓取单个PC产生的流量扩展为整个局域网产生的流量。同时使用文献[4]中提到的Moore数据集与Tstat网[9]提供的Skype数据集。此外,在数据集中新增PC-PHONE端的Vo IP类型流量,使系统同时具备PC-PC端与PC-PHONE端Vo IP电话的识别能力。

1.2.2 文件格式转换

Wireshark软件数据包的存储格式为PCAP格式。PCAP文件头包括:数据链路层14 B包头+20 B IP包头+20 B TCP或UDP包头。预处理模块通过分析PCAP文件头信息,编程实现五元组、时间戳及数据包长等流特征信息的提取,并转换为WEKA能识别的CSV文件格式。

1.2.3 分流统计构建训练集

首先在五元组相同且满足思科分流定义的条件下,对Wireshark抓取的数据包进行分流,利用文献[2]提供的fullstats分流器,在Linux系统中实现分流。完成数据包分流后,统计数据流的相关流特征,并将统计后的数据流作为最终训练集。

1.3 流特征选择

文献[2]提出了249种流特征,若对每个特征进行统计,将耗费大量的计算时间,成本过高,且并不是所有流特征都适用于Vo IP流量识别,因此需要去除不相关且冗余的流特征,以达到提高模型精确度,减少运行时间的目的。本设计根据Vo IP语音电话特有的通信属性对其进行初步筛选,得出20个候选流特征再进行特征选择。特征选择首先从候选特征集中产生一个特征子集,然后用评价函数对该特征子集进行评价,将评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,直到获得评价最高的特征子集。本文使用Best first search搜索算法从候选特征集中产生特征子集,然后用CFS(Correalationbased Feature Selection)算法进行评估,得到12个相关性最好、得分最高的特征子集,如表1所示。

1.4 机器学习算法

本文着重研究C4.5决策树算法,为增强系统可扩展性,另在系统中集成了朴素贝叶斯算法(Naive Bayes)与支持向量机算法(SVM)。

C4.5决策树是一种经典的分类与回归算法。决策树的数据结构由内部节点和叶子节点组成,内部节点代表一个特征属性,叶子节点代表一个类别[10]。算法的处理过程分为以下几个步骤:首先,计算数据集D的经验熵H(D),熵是一种不纯度度量准则:

式中,pi是属于第i类的概率。其次,计算特征A对数据集D的经验条件熵H(D|A):

进一步得出信息增益为:

信息增益比为:

式中HA(D)为属性A的信息熵。依次选取信息增益比最大的特征Ag分割数据集D为Di,将Di中最大的类作为子节点再递归调用得到子树Ti。最终经过“悲观剪枝”修剪决策树得到损失函数最小的子树。

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练集,首先基于特征条件独立假设学习输入/输出的联合概率分布,再基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯的算法效率高,是一种常用的分类算法。

支持向量机是一种二分类模型,基本模型是定义在特征空间上的间隔最大的线性分类器。其学习策略是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。

1.5 在线识别———JPcap边抓包边检测机制

在线识别的关键技术是实现在线抓包同时短时间内识别出目标流量。本文致力于寻找一个能实现Window系统下在线抓包的工具,而JPcap库正是实现这一想法的重要类库。

JPcap库是Keita Fujiiy开发的一套能够捕获、发送网络数据包的Java类库[11]。Java语言虽然在TCP/UDP传输方面给予了良好的定义,但对于网络层以下的控制却无能为力。JPcap类库给Java语言提供一个公共接口,类库使用libpcap和原始套接字API,调用Jini获得Java API中的数据,实现Java语言对底层网卡的控制与链路层数据包的获取。

本文提出JPcap边抓包边检测机制,基于JPcap库编写探嗅器实现在线抓包。利用JPcap库所抓取的数据包对象是单个数据包。因此,系统在抓包的同时能实现对单个数据包按五元组分流并统计其流特征。每当统计时间达到所设置的阈值时间30 s时,便将这段时间内统计好的数据流作为测试集送入分类器进行识别,输出识别的Vo IP流IP地址,动态显示网络中Vo IP的状态,实现真正意义上的Vo IP流量实时在线识别系统。

2 实验结果与分析

实验环境:新西兰怀卡托大学基于Java开发的开源数据挖掘平台weka3.6、一台装有Windows 7操作系统和Eclipes的个人PC、一台华为S5000交换机。

2.1 评价指标

评价二分类类型的分类器性能指标为:精度(precision)、召回率(recall)、F1值。实验以Vo IP类为正类,非Vo IP类为负类,分类器在测试集上预测结果为正确或错误。可能出现的4种情况记:TP,将正类预测为正类数;FN,将正类预测为负类数;FP,将负类预测为正类数;TN,将负类预测为负类数。进一步,得到精度:

召回率为:

F1值为精度和召回率的调和均值:

2.2 实验数据

本次实验使用1.5G Skype流,包含了Skype 10个版本,共计1 371条流,其中371条为PC-PHONE端Vo IP流量。非Vo IP流量1G,使用文献[2]中提到的Moore数据集与通过镜像端口抓取到的数据集。整个训练集共34 371条数据流,覆盖14种流量类型,具体见表2。

2.3 离线分类器模型结果分析

系统识别结果如图3所示。离线建模过程如图3上半部分所示,步骤包括打开训练集文件、选择机器学习算法、建模,图中所示J48即C4.5决策树算法,结果框为分类器识别结果,具体如图4所示。

实验使用10折交叉验证法评估出平均测试误差最小的分类器,由图4可知,分类器识别精度为99.9%,召回率为99.6%。图4最下方为混淆矩阵,对于二分类问题,用2×2矩阵表示,正对角线上表示正确分类的样本,反对角线表示被错误分类的样本数,结果显示有2个非Vo IP样本被分类成Vo IP类,6个Skype样本被分类成非Vo IP类。实验结果表明,本文所选取的最优特征子集大幅提高了分类器的性能指标。由于本文针对Vo IP流包长、时间间隔等关键属性对流特征进行筛选,增强了机器学习算法的学习能力,从而使得分类器识别性能大大提高。

同样地,对Naive Bayes和SVM算法分别进行实验,3个算法搭建的分类器识别结果对比图如图5所示。可知,基于C4.5决策树算法分类器的3个评价指标均最高。这是因为C4.5决策树算法建模时不依赖于网络流量类型的分布,对于不同类型的流量数据有更强的适应能力,在分析较大训练集时优于依赖先验概率的NaiveBayes算法,且内存需求小于SVM算法,因此得到了最好的识别精度。

2.4 在线分类器识别结果分析

在线识别如图3下半部分所示。首先打开本地网卡开始抓包,设定混杂模式抓取流经本地网卡的所有数据包,同时对数据包进行分流并统计流特征。每达到设定的30 s阈值时,选择对应算法的分类器对测试集进行在线识别,识别出Vo IP类型流量并以IP地址形式输出到图示结果框。图3仅是一次测试结果,3个IP地址均为Vo IP通话主机地址,结果表明系统实时准确识别出了当前网络中的Vo IP通话。

接下来,累积进行100次在线实验,对比3种分类器在线识别精度,结果如表3所示。由表3可知,在线识别精度最高的分类器为基于C4.5算法的分类器。

而作为在线识别系统,除精度以外,还需考虑第二个核心指标———实时性。这里也对3种算法的建模时间与识别时间进行对比,结果如表4所示。由表4可得,基于C4.5算法的在线识别时间最短,建模时间略低于Naive Bayes算法,而Naive Bayes在线识别时间低于C4.5算法,SVM建模与识别时间均最长。由于C4.5决策树模型处理样本时,仅需根据网络流流特征值自顶向下进行比较,找到相应叶节点即可,处理简单,处理效率更高,因此识别速度更快。

结合表3、表4的结果对精度与实时性指标进行分析,得到C4.5决策树算分类器识别精度最高,且在线实时性最好;Naive Bayes分类器虽然建模时间短,但在线实时性略差,且精度较低;SVM分类器精度与实时性均不佳。在实际应用中应同时保证高识别精度与实时性,因此本文选择C4.5决策树为系统的核心算法。实验结果表明,本文所设计的Vo IP流量在线识别系统确实能同时满足高精度与实时性。

3 结束语

本文设计并实现了基于机器学习的Vo IP流量在线识别系统,在大幅提高Vo IP流量识别精度的同时保证了系统的实时性,且有良好可视化界面。实验结果表明,本文所设计的Vo IP流量在线识别系统离线识别精度达99.9%,在线识别精度达92%,且识别时间短,能够快速识别出目标流量并显示Vo IP流量活动的IP地址。不过,本文的训练集未能涵盖更多种类的流量类型,对未知流量识别仍有待提高。未来的工作旨在建立一种更优化的在线识别系统,继续增强样本容量,增加更多种类的流量类型并支持更多的算法。

参考文献

[1]梁伟,陈福才,李海涛.一种基于C4.5决策树的Vo IP流量识别方法[J].计算机应用研究,2012,29(9):3418-3421.

[2]MOORE A,ZUEV D,CROGAN M.Discriminators for use in flow-based classification[M].Queen Mary and Westfield College,Department of Computer Science,2005.

[3]OKABE T,KITAMURA T,SHIZUNO T.Statistical traffic identification method based on flow-level behavior for fair Vo IP service[C].Vo IP Management and Security,2006.1st IEEE Workshop on.IEEE,2006:35-40.

[4]CALCHAND A O,DINH V T,BRANCH P,et al.Skype traffic detector[R].CAIA Technical Report,2009.

[5]鲁刚,张宏莉,叶麟.P2P流量识别[J].软件学报,2011,22(6):1281-1298.

[6]GU C,ZHANG S,SUN Y.Realtime encrypted traffic identification using machine learning[J].Journal of Software,2011,6(6):1009-1016.

[7]DI MAURO M,LONGO M.Skype traffic detection:A decision theory based tool[C].Security Technology(ICCST),2014International Carnahan Conference on.IEEE,2014:1-6.

[8]鲁刚,张宏莉,叶麟.P2P流量识别[J].软件学报,2011,22(6):1281-1298.

[9]TCP statistic and analysis tool.[EB/OL].[2016-01-02].http://tstat.tlc.polito.it/.

[10]李航.统计学习方法[M].北京:清华大学出版社,2012.

流量识别系统篇2

TI TMS320DM6446实现了一种使用安检摄像头拍摄的录像进行统计人群流量，检测、追踪特定人的检测系统。获得的人群流量统计、

检测特定人数据结果，实时显示在监控中心，可以同时将统计、检测分析到的数据存储在本地非易失性存储器或通过网络传输到

远程数据中心。

关键词视频图像分析和模式识别；人流量统计；特定人检测

中图分类号TP文献标识码A文章编号1673-9671-(2011)072-0169-04

在火车站、飞机场、地铁、汽车站、展会等人群密集场所，随时掌握人群数量、密度等对指挥、安检等部门适时做出正确决策具有重要意义。特别是近年全世界频繁的恐怖袭击活动，全世界范围暴发的甲流等疫情，严重地威胁着公共场所的群众安全。如何快速有效地确保人群拥挤的公共场所内群众的安全摆在了各国政府面前。采用图像处理方法实现智能化检测、分析是今后安检系统智能化发展的方向。若仅仅简单地将摄像头拍摄的视频送到监控室显示的安检系统，再完全依靠人眼盯着显示器监控检测区域的变化，由于监控人员无可避免的疲劳、疏忽等原因，极容易让可疑人物通过。

1系统指标

本系统是专门为解决富有挑战性的安全监控数据采集工作/分析而设计的：利用安装在高处的单个静止摄像头来监视特定区域，利用运动分割与模型匹配的方法，检测并统计通过监视通道的人员信息，搜查特定人有没有通过监视通道，远程发送/接收数据，实时更新要求检测的人员图像信息。由于监视通道人数可能众多，并且要求系统具有一定的实时性。为实现这一目标，我们在软件和硬件方面都做出很大的努力。

算法上：

增加算法的并行性，减少处理间的相互依赖；使用指针交换避免图像数据拷贝；在保证统计人数精度前提下，尽力简化算法，减少处理器处理时间。

举个例子说明软件算法设计对处理效率的影响。一般图像、视频处理顺序如下：

图1

类似这样的处理流程，图像数据拷贝消耗大量CPU资源。我们在设计算法流程上充分利用C语言指针的灵活性，通过指针交换，完全避免了图像数据的拷贝。实验结果表明，处理效率得到了极大的提高。

硬件上：

选用TI公司达芬奇TMS320DM6446。DM6446是一个双核SoC单片系统，其中C64x核时钟高达594MHz， ARM926EJ-S高达297-MHz。达芬奇引入了视频处理子系统（VPSS．Video Pro—cessing SubSystem）。视频处理子系统的结构框图如图2所示．包括视频处理前端(VPFE．Video Processing Front End)和视频处理后端（VPBE，Video Processing Back End）。视频处理前端用于负责从外设接收并处理原始的视频流信号。视频处理前端中的CCD控制器（CCDC）将具体负责对视频数据的采集工作。视频处理后端实现对视频流信号进行显示、编码输出等功能。TMS320DM6446处理器完美集成了视频外设及加速器，使得BOM（Bill of Materials）成本大幅下降。由于BOM成本进一步降低，系统开发所需的时间相应减少，因此预计可更早推向市场，能够获得更低的市场价位。TI推出的达芬奇系列芯片不仅是一个平台，还有一系列经过生产、测试、优化的开放性软件。第三方开源社区具有大量的软件资源支持，如ARM可上Montavista linux，V4L2驱动等。结合业界标准API，可使客户专注于开发个性化的产品。

图2

2系统方案

2.1系统结构

图3所示为本系统结构框图，主要分为摄像头模块，TVP5146转换模块，处理器模块，存储器模块，监视器显示模块，和网络通信接口模块等六个部分。

图3系统结构框图

1）处理器采用达芬奇DM6446。DM6446 SoC是视频监控的理想选择。

2）系统处理得到的各种检测/分析、统计数据可以存储在设备本身自带的大容量存储器，如硬盘，也可以通过通信接口（RJ-45以太网口、RS-232、RS-485串行口等）传输到远程数据中心。

2.2运动目标（人群）流量统计系统

检测人群流量基于视频分析的肤色检测、运动目标检测与跟踪算法。在智能视频监控中，对运动目标（对本项目为人群）的检测与跟踪是提高系统智能性的关键技术。系统在检测和跟踪到运动目标后，可以对目标进行特征提取及识别以区别目标的种类（如人、车等），通过提取到的特征和指定的待查人特征相比较，可获取检测结果；通过跟踪轨迹的分析，可以判断出目标的行为是否合法（如汽车的逆行、可以目标进入危险区域等）。

为完成该任务，本项目具体实施流程如图4所示。

图4实施流程图

图中具体模块的功能介绍如下：

1）前景检测模块：将运动目标从背景中分割出来。

前景检测模块将当前帧的像素分为前景像素和背景像素。本项目采用混合高斯模型算法。对于图像上某一像素点，随着时间的变化，其像素值为x1，x2，…，xt，…（下标表示时间）。如果该点是背景，那么x的取值应该在某个固定值u附近。如有目标运动到该像素点，x的取值将与u差别很大。在这种情况下可采用均值为u，标准差为σ的单高斯模型来描述该像素点。如果xt与均值u的差值的绝对值大于3σ，那么在t时刻，该像素点为前景；否则为背景。这种单高斯模型可以实现固定背景上的前景检测，但是很多时候，背景中可能还包含一些微小但复杂的运动，比如树叶摇晃。假设背景为蓝天和绿树叶，树叶在风中摇晃，某些点的像素值可能在蓝色（天空）和绿色（树叶）间变换。此时单高斯模型已不能满足要求，需要建立均值分别为u1（蓝色）和u2（绿色）的双高斯模型。本项目为了体现一般性，视应用场合采用混合高斯模型。

2）目标模型建立模块：应用减背景算法得到当前中出现的所有运动目标，忽略细节，将具有相同大尺度特征，如颜色、纹理、轮廓等作为运动目标，本项目采用颜色相邻区域作为运动目标，并用圆框表示目标，圆框的中心表示目标的位置，用颜色直方图对目标建模。并存入目标模型列表，统计目标数量。

3）新运动目标检测模块：应用前景检测的结果检测新进入场景的运动目标。

4）运动目标跟踪模块：应用新运动目标检测模块的结果初始化该模块，跟踪新进入的目标。目标跟踪可以看作是匹配问题，即用当前帧中的检测结果和目标模型进行匹配，找到当前帧中目标的位置。对当前帧进行团块提取后，观测结果可以由一组团块表示，在这些团块中找到与目标模型匹配的团块，就可以确定目标的位置。目标匹配首先需要满足两个准则：颜色相似性准则和空间相邻准则．首先，将从图像中提取出的目标与模型中的目标逐一进行比较，寻找与其颜色最接近的一个，如果颜色相似性达到阈值要求，进而比较两个目标之间的欧几里德距离是否小于预定的门限．如果上述两个条件都满足，则认为观测到的目标是模型目标的候选匹配目标。

5）轨迹生成模块：收集所有目标的位置，并在每条轨迹结束时将其保存。

此外，可对目标的行为进行分析，如目标是否进入禁入区域等。

3系统硬件设计

本系统以DSP强大的图像处理能力为支持，设计一个稳定的、低成本的、可扩展性好的、网络化的高速图像处理平台，为实现智能监控提供了硬件基础。根据系统设计要求，系统硬件结构可分为六部分，主要分为摄像头模块，TVP5146转换模块，处理器模块，存储器模块，监视器显示模块，和网络通信接口模块。

DSP通过DMA通道将图像读进DSP内部存储器，读取完成后将图像数据指针传给核心算法进行处理。将处理结果数据指针转给显示程序模块，输出到NTSC/PAL/VGA等监视器。这样通过指针链表的循环使用，避免了图像数据拷贝，大大的提高了系统效率。

器件选型：

由于本系统采用的算法复杂性较大，实时性要求高，并且需要大量存储器存储中间结果，视频输入输出较复杂，因此选择达芬奇高性能数字媒体系统芯片。

核心处理器采用TI公司的高性能定点DSP媒体处理平台 TMS320DM6446。该款处理器具有丰富的片上资源，能满足大多视频系统需求。

4系统软件设计

4.1视频采集系统驱动程序的结构框（如图5所示）

图5视频采集系统驱动程序的结构框

软件设计涉及到嵌入式Linux操作系统、视频处理算法及ARM和DSP之间的分工协作。为了能使用户尽量的发挥达芬奇技术的优势并且在此基础上快速的开发自己的产品，TI推出了达芬奇软件框架RF5（Reference Framework 5）和达芬奇开发工具。

利用达芬奇软件框架和达芬奇开发工具，软件设计可以分为图6所示的四个步骤：

图6软件设计步骤

1）设计视频处理算法Codec库。在主机Linux环境下，按照照xDM标准开发核心算法，利用代码生成工具（Code Generation Tools）编译生成*.a64p库文件。

2）创建Codec Server。利用xDC（eXpress DSP Component）Tools配置工具生成木*.x64P可执行文件，也就是DSP Server。

3）配置Codec Engine，将第二步生成的算法的DSP Server集成到Codec Engine中。根据DSP Server的名字及其中包含的具体的视频处理算法创建Codec Engine的配置文件*.cfg。这个文件定义Engine的不同配置，包括Engine的名字、每个Engine里包括的算法库及每个算法库运行在ARM端还是DSP端等。

4）设计应用程序。在主机Linux环境下开发视频应用程序，首先完成视频文件的读取操作，然后通过Codec Engine调用核心处理算法，完成视频图像处理。

4.2统计数量流程图（如图7）

4.3运动检测

使用SAD（The sum of absolute differences）方法检测运动。

4.4人物跟踪

检测和跟踪人过程，第一步使用视频的头几帧图像来构建背景图；第二步，获得背景图后，将人物从背景图里分离出来；第三步，将代表每个人的像素团块分组并计算每个人的边框；最后，通过比较当前帧和前一帧人物边框，匹配当前帧的人和前一帧对应的人。通过这样方法达到跟踪人物的目的。

4.5肤色检测

人体的皮肤颜色是人体的一个重要特征，肤色检测被广泛的应用于人脸跟踪、人脸检测、手语识别、敏感图像过滤等领域中，具有重要的理论研究意义和实际应用价值。

经过统计证明，不同人种，不同环境下的肤色区别主要受亮度影响，受色度影响较小。

5系统设计与创新

在诸多特殊场景下的视觉监控有着相当广泛的应用前景，例如警戒地带的入口控制，机场，火车站，地铁等场合下的特定人员的识别，人群流量的实时统计，异常情况的检测和报警，多台摄像机交互式联网实时监控等。而目标检测是本系统中视频识别中的目标跟踪，行为理解和描述，多摄像机的数据整合等步骤的前提。目标检测包括以下几个步骤：目标检测，阴影去除，目标分类等。

多运动目标的检测跟踪是把数字图像处理，自动控制，信息电子科学完美的结合起来，形成的一种能从视频信号中实时地识别目标，提取目标特征信息，自动跟踪指定目标的技术。为了对检测出的运动目标或指定目标区域进行实时跟踪检测，通过跟踪算法实时计算出目标在区域场景中的准确位置，目标移动速度，移动方向等重要信息。多运动目标的检测与跟踪主要可以分为多目标检测与多目标跟踪两个部分。多目标检测主要目的是实现从指定场景中检测运动目标作为跟踪对象，它是实现智能化自动化跟踪的前提。

针对目前普通安检系统适应性差，无图像处理/分析功能或处理功能弱，无搜索、跟踪特定人员等实用功能。我们设计出了基于视频识别技术的智能化和自动化的安检系统，以满足日益增加的应用需求。

为了便于调试和生产，采用模块化设计的思想指导系统的设计，系统中各个模块间采用通用接口，方便更换、升级部分模块，系统拥有较强的升级性能和灵活性。

采用TI TMS320DM6446高性能达芬奇平台为核心处理视频图像，简化了硬件设计，减少其他器件的使用，在降低系统BOM成本的同时，提高了系统可靠性，加快了新产品的开发进程；最重要的是能是客户专注于系统特色功能的设计、实现。一方面为实施安检的指定区域提供了有价值的统计数据以供决策分析使用；另一方面通过系统搜寻跟踪特定人员，从而不必完全依靠安保人员逐个排查，可以让人群快速地通过关卡，对海量视频搜索来说具有非常实用的价值。

6评测与结论

为克服背景光源的非均匀性，提高系统正确度，我们对每一帧图像进行核心算法之前，先使用开运算补偿不均匀的背景亮度。

实验结果显示，经过补偿不均匀背景亮度处理后，即使摄像机在灯光闪烁环境下的拍摄的视频，统计结果依然能保持一定精度。

在计算机模式识别、机器视觉、图像/视频处理领域，不存在能解决大多数问题的单一算法，因此只能综合各种算法的检测结果给出最后的判断。

由于系统处理算法比较多，下一步继续优化软件，以提高系统处理视频流的速度，提高统计精度和识别准确率。

参考文献

[1]冈萨雷斯.数字图像处理(MATLAB版)[M].北京:电子工业出版社,2005.

[2]美国德州仪器公司著,卞红雨,等编译.TMS320C6000系列DSP的CPU与外设[M].北京:清华大学出版社,2007.

[3]刘瑞祯,于仕琪.OpenCV教程:基础篇[M].北京:北京航空航天大学出版社,2007.

[4]施家栋,等.基于光流的人体运动实时检测方法[J].北京理工大学学报,2008,8(9).

[5]傅莉,方帅,徐心和.基于计算机视觉的人体运动目标检测[J].兵工学报,2005,26(6).

[6]周金模.基于达芬奇技术的嵌入式实时视频系统研究[D].华中师范大学,2008.

[7]俞海滨.基于达芬奇技术的AVS视频解码器的设计与实现[D].江苏大学,2008.

[8]余谦,刘任庆.基于达芬奇技术的视频采集系统研究[J].广播与电视技术, 2008,35(3).

作者简介

黄秋娇，学士，广西现代职业技术学院，中级职称，主要研究方向：电子和信息技术。

P2P流量识别技术分析篇3

关键词：P2P,流量识别

1 P2P应用现状分析

P2P起源于最初的联网通信方式, 计算机之间可以互相直接通信而不需要中间结点。利用P2P技术用户不仅可以共享文件和存储空间, 还可以实现对等计算、协同工作和搜索引擎等众多应用。

P2P打破了传统的Client/Server (C/S) 模式, 每个结点既充当服务器, 为其他结点提供服务, 同时也享用其他结点提供的服务。除此以外, P2P体系结构还具有开放性、可扩展性强等特点。所有这些使得P2P应用在短短几年时间有了飞速的发展。P2P的飞速发展一方面丰富了网络中的应用形式, 但另一方面也带来了许多负面的问题。网络上流行的P2P业务, 包括文件共享, 即时通信, 协同计算, 联网游戏等带来的网络流量, 已经超过了HTTP和FTP, 成为互联网网络流量的主力军, 给网络带来很大的负担, 其影响在局域网环境下尤为明显。

相对于传统Internet业务而言, P2P业务存在以下诸多问题:

(1) 引起链路阻塞。

(2) 严重影响正常业务。

(3) 导致安全问题。

正是由于P2P业务存在以上诸多问题, 因此实现分类、标识和控制P2P流量越来越成为企业、网络运营商急需解决的问题。而只有从网络中有效的识别出P2P的数据流量, 才能够对其进行流量控制, 流量管理以及安全机制的研究。这使得对P2P流量识别的研究变得尤为重要。

2 P2P流量识别的特点

P2P流量的快速识别与分类, 不仅为运营商提高服务质量 (Qo S) 提供技术支持, 也可以为对等网络上的内容监管 (如恶意代码识别、病毒防御) 提供保障。但是, 由于对等网络的内在特性, 其流量识别存在以下特殊性。

2.1 不确定性

由于对等网络应用的多样性 (如文件共享、语言通信、视频通信) 等, 因此对等网络流量不仅在流量特征上, 而且在行为特征上也表现出不确定性。此外, 对等网络中节点的动态性也增加了对等网络流量的不确定性。这种流量的不确定性, 为实现对等网络的流量识别带来了诸多困难。

2.2 海量性

对等网络不仅应用多种多样, 而且规模极大 (如文件共享式P2P系统Bittortent总同时在线节点可高达100万) , 因此一般来说, 对等网络流量均较大。对等网络流量的海量性, 给流量的实时检测带来了性能问题。

2.3 加密性

由于对等网络属于应用层, 因此为了躲避内容监管, 现有P2P系统均对其载荷进行了加密处理。加密特性使得常规的模式识别算法很难直接应用于对等网络中。因此, 必须寻求新的流量检测技术与检测方法才能解决P2P流量识别的准确性和可靠性问题。

上述特殊性使得对P2P流量进行正确、高效和实时识别带来了很多困难。从技术层面来看, 现有P2P流量检测技术大致可分为基于流量特征的识别方法 (TLI) 和基于深层数据包识别方法 (DPI) 。

3 P2P流量识别技术的国内外研究现状

P2P流量检测的研究, 国内是国防科大的杨岳湘、王锐等, 国外有贝尔实验室的Sen和目前在微软剑桥研究院的Thomas Karagiannis。这几篇论文给出非常实用化的思路, 大致为当前的检测软件所用。电子科技大学的周世杰等做了非常好的总结:P2P流量检测技术可分为基于流量特征的识别方法 (T L I) 和基于深层数据包识别方法 (DPI) 。从P2P流量识别的技术现状来看, 基于应用数据分析技术的深层数据分析方法DPI由于具有准确性高、健壮性好、具有分类功能, 且过去的P2P系统大都未加密, 因此是P2P流量识别的主要方法。但是, 基于DPI技术也面临诸如如何提高检测算法的性能、如何支持对加密数据的分析、如何更新P2P应用特征库等问题。同样, 基于流量特征的P2P流量识别方法虽然具有性能高、可扩展性好的有点, 但由于准确性差, 因此在实际应用中也面临诸多困难。

4 几种典型的P2P流量识别方法分析

4.1 主动爬行器识别

主动爬行器识别是利用一个经过修改的P2P客户端 (称为crawler) 对P2P系统进行探测。爬行器使用正常方式加入到系统, 然后尽可能收集peer的信息, 这些信息包括IP地址、端口号以及其它可从P2P协议中得到的数据。爬行器需要能快速的反映出P2P系统的状况, 如果操作周期过长, 会由于大量节点的加入和离开使得反映失真。

这种方法的优点是可以获得大量P2P用户的IP地址, 缺点是爬行和探测必须足够快才能有效。P2P系统中的用户数量极大, 使用这种方法需要耗费很大的资源。同时使用这种方法也需要对P2P协议非常熟悉, 如果协议是非公开源码的或是加密的, 则无法构造出爬行器。另外基于爬行器探测的方法需要随着底层P2P协议的变化而不断更新。

爬行器方法可以提供有用的信息, 但还需要在干扰性和检测开销方面进行改善。当然也有其它的方法可以用于识别P2P用户, 不过爬行器方法仍可作为在其它方法无法识别的情况下的可行方案。

4.2 内容识别

用于检测和识别P2P流量的另一种方法, 就是通过检查数据分组的内容得到P2P协议的特征模式。这首先要从已知的P2P流量中找出模式或签名, 利用一个签名的列表对要识别的流量进行检测。对于每个分组都要与列表中的签名进行比对, 若相符则为P2P流量。签名检测在入侵检测中已经应用了一段时间。在某些IDS中这种方法已被配在防火墙上用于检测P2P流量, 这种方法较为有效和灵活。如果在一个较小的子集正常活动行为中是可知的, 而且特殊服务仅限于特定的主机时, 防火墙便可以有效的拒绝P2P的访问[1]。

内容检查对P2P的识别虽然有效, 但也存在以下几方面问题。

(1) 无法识别经过加密的数据流量。

(2) 签名经常变化, 需要不断的随着P2P协议的变化而更新。

(3) 对IDS的更新是比较困难的, 因为这涉及到许多设备和硬件, 需要花费不少的费用。

(4) 应用层的内容检查对资源的消耗和对硬件的要求较高。

(5) 需要对原有的网络设备进行升级改造。

4.3 端口识别

大多数P2P应用程序使用特定的端口号与其它peer交互, 其它的peer向这个端口发送请求, 而后在建立的连接上回复。相反的, 当向其它的peer发送请求时, 使用本机上的一个随机端口连接到对方peer的公开端口上, 这种特性在Internet上的C/S模型中常会见到。peer应用程序使用默认的端口号, 这一点可以区别不同的流量。但问题在于这一服务端口并不是固定的。用户为了通过防火墙或逃避检测可以随意改变监听端口 (这被称为端口跳跃) , peer可以选择任意的端口用于监听连接, 甚至可以在每次使用客户端软件时随机选择端口。

在早期, 利用已知传输层端口号可以精确、快速的区分流量。但是现在许多P2P程序为了躲避防火墙的限制, 开始使用端口跳跃 (甚至使用80, 8080, 443等端口) , 这使得基于端口的流量识别变得十分困难[2]。

4.4 基于客户端进程的流量识别

该方法通过对主机进程与网络流量相关性的研究, 提出了一个基于客户端特征进程的P2P流量识别方法。通过对接入网络的主机上运行的进程进行检查, 自动识别出P2P进程所产生的流量, 使每一台客户端主机具有了识别自身产生的P2P流量的能力。与之前流行的P2P识别系统相比, 该方法首先引入了基于主机进程的客户端流量识别技术, 可以有效地解决传统识别方法对于端口跳跃和数据加密造成的识别失效问题;单点识别与多点识别相结合, 多种识别方法相结合, 有效降低服务器负担, 提高识别效率;其次该方法引入识别引擎管理控制机制, 增强识别系统的扩展和更新能力;另外还引入了TLS安全通信机制, 以保证客户端识别模块与系统之间的通信安全。整个识别方案采用了多种识别方法相结合, 从不同的层面对P2P流量进行识别, 与传统的P2P流量识别方案相比, 能在一定程度上提高P2P流量识别的效率和准确率。

4.5 特征参数识别

利用P2P系统表现出的某些特征来完成识别[3], 这些参数可以分成四类。

(1) 拓扑参数:用于描述应用层上的拓扑关系等。例如跨网络的peer分布以及它们之间的连通性。

(2) 流量特征参数:衡量不同节点发送或接收到的流量以及流速。

(3) 动态行为特征参数:在实际P2P系统中观察到的各种行为。例如:主机加入或离开系统的频繁程度, peer在系统中的停留时间等。

(4) 社会行为特征参数:描述多少主机加入网络、内容的分布以及共享的程度等。

5 P2P流量识别技术的未来发展方向

P2P应用从最初的采用固定端口发展到使用可变端口甚至使用其他应用的端口进行数据传输, 在传输的具体内容方面也从使用明文传输发展到对传输数据进行加密处理, 因此对P2P流量进行识别的技术也需要不断创新与探索。

当前P2P流量识别的难点主要来自几个方面。

(1) 互联网带宽的不断增长。

(2) 数据加密、隐藏等技术在P2P中的应用。

(3) P2P应用技术的不断更新及快速普及

前者导致网络中单位时间内数据以及流数目增大, 给数据的采集增加了困难, 而后两者又使得传统的端口、应用层特征等识别方法不再适用, P2P流量识别技术及相关产品必须不断更新以适应需求。针对现在P2P应用发展的趋势, 我们提出下面几点作为P2P流量管理未来的发展方向。

(1) 自动抽取P2P流量的签名。

(2) 使用更有效的流量特征来识别P2P流量。

(3) 在线的P2P识别。

(4) 应用更高级的机器学习和数据挖掘的方法。

(5) 综合的P2P识别和流量管理优化服务模型。

随着P2P技术的不断发展, 本文所讨论的上述几种流量识别方法仍需要相应的改进, 包括挖掘P2P流量的深度特征, 在识别系统中引入智能学习功能等, 以便能够对网络中相关P2P流量进行精确、实时、高效的识别与监控, 从而为ISP以及企业的网络管理提供便利的管理平台。

参考文献

[1]A.ABIMBOLA, Q.SHI, ANDM.MERABTI, Using Intrusion Detection to Detect Malicious Peer-to-Peer Network Traffic[C], inPGNET2003, Manchester, UK, June.2003.

[2]CYRIL SOLDANI, Peer-to-Peer Behaviour Detection by TCP Flows Analysis[D].UNIVERSITY OF LIEGE, May.2004.

[3]T.Karagiannis, A.Broido, N.Brownlee, K.C.Claffy, and M.Faloutsos, Is P2P dying or just hiding[C].in Proc.of IEEEGlobal Telecommunications Conference (GLOBECOM2004) , Dallas, TX, USA, Nov.2004.

流量识别系统篇4

一、网络异常流量概述

所谓的网络异常流量就是干扰网络正常使用的网络流量模式, 一旦出现网络异常流量, 流量就会在短时间内发生突变, 流量分布趋势图也会与正常流量分布趋势图不同[1]。国外学者曾分别为正常网络流量和异常网络流量下了定义, 其中网络异常流量就是不符合规定的, 在预料之外而出现的流量偏离现象。现阶段, 互联网已经成为人们日常生活中不可缺少的组成部分, 它可以为人们提供各种各样的网络服务, 但却经常受到信息攻击, 加之网络攻击门槛较低更为异常流量出现提供了契机, 致使网络安全受到较大威胁。

二、军事电子网络对抗中网络流量异常识别的原理

军事电子网络对抗中所出现的网络异常流量具有很大的隐蔽性, 不能轻易被发现, 它可以在很短的时间内攻击军事电子网络系统, 对于军事对抗安全有较大威胁。所以怎样快速识别军事电子网络对抗中出现的网络异常流量, 保证军事通信安全就成为军事专家重点研究问题。其原理如下:在检测异常流量的过程中, 将需要处理的原始数据转换到对应的坐标轴上, 将数据矩阵设为Y, 选择N个正交向量构成一个子空间, 在该子空间内变化的都属于正常变化, 这也是正常流量行为特征的体现, 剩余的子空间则为噪声数据或网络异常流量[2]。通过研究得知, 军事电子网络对抗中所出现的网络异常流量在时间和空间上具有一定的相关性, 在识别异常流量的过程中, 如果能够及时发现相关性就可以正确识别异常流量。同时, 研究离散小波变换理论得知, 在处理待测流量时可以获得瞬时参数, 在有效预测异常流量的作用下能够准确识别网络异常流量, 进而保障军事网络信息安全。

三、识别军事电子网络对抗中网络流量异常的措施

1、多维流量数据分类。多维熵值序列间存在明显的相关性, 如果出现流量异常, 熵值时间序列就会发生对应突变。所以, 可以将所有维度的标准熵排列为对应向量, 根据支持向量理论完成向量分类, 并确定异常流量与数据为负, 相反则为正。之所以采取这样的方法是为了区分数据库的多维流量, 为军事网络对抗中网络流量异常识别提供强有力依据。

2、网络流量的异常识别。为做好军事电子网络对抗网络流量异常识别工作, 可以通过主分量分析法缩减维数, 并分离信息熵值的异常子空间和正常子空间[3]。综合以上两点可以得知, 运用改进算法识别军事电子网络对抗中网络异常流量, 可以消除传统算法中所在的弊端, 改进算法的应用可以满足军事网络信息安全需求。

3、改进算法的效果。要使军事网络信息更加安全, 最关键的措施就是改进算法, 提高算法优越性。为保证改进算法更具优越性, 就需要通过实验来验证。因此, 分别采集了骨干网两天的流量数据, 由于这些流量数据是在主体项目指导下完成采集的, 也就意味着他们具有一定的代表性。

参照相关理论计算了在信息熵值时间序列内的流量特征, 且提取了相关参数, 将其作为实验依据。本次试验数据的大小约52G, 含有3亿多信息流量记录和550个流量行为特征熵值序列。进行本次实验的主要目的是分析改进算法与传统算法在异常流量识别上的能力与差别。经过实验论证得知, 无论是精确率还是识别效率, 改进算法识别军事电子网络对抗中网络异常流量的能力都要优于传统算法。同时, 待于识别的异常流量所占比例的不同, 改进算法对于异常流量所产生的识别效果也会不同, 如当异常流量占据中流量的1.2%时, 改进算法的识别效率为72%, 漏检率为0.2%, 误检率为0.8%;当异常流量占据中流量的9.2%时, 改进算法的识别效率为97%, 漏检率为0.3%, 误检率为0.5%。通过这组数据可以得知, 随着异常流量在总流量中的增多, 改进算法的识别能力也会提升, 只有漏检率与误检率变化不算显著, 基本可以认为改进算法具有较高的稳定性。

结论:通过以上研究了解到, 军事电子网络对抗中网络异常流量的隐蔽性很强, 传统算法难以正确识别, 所以就需要应用新型算法, 针对这种情况, 本文通过实验的方式对比了改进算法与传统算法之间的差别, 认为改进算法无论是准确率还是效率都比传统算法强很多, 完全可以满足军事网络对抗需求, 并可以保护军事网络信息安全。

参考文献

[1]吴小花.网络异常流量识别技术的研究[D].长春工业大学, 2013.

[2]沙永正.基于流模式的计量异常识别方法研究[D].浙江工业大学, 2014.

因特网流量识别及管理方案设计篇5

精确的因特网流量识别是大多数网络行为的重要组成部分。网络的设计、管理以及安全性维护, 都需要首先了解各种应用程序不同的网络特征。最近几年, 随着P2P软件的兴起和发展, 基于端口号和基于负载的流量识别变的越来越困难, 因为这些软件都不再使用固定的端口号和特征码。现在大部分网络设备和防火墙提供商使用的是基于应用程序特征码的识别方法, 这种方法需要知道网络中所有应用程序流量的特征码, 并保证在应用程序变动以后特征码也能及时更新, 在应用程序的实现细节不公开的情况下, 要做到这一点显得相当困难。另外, 这个方法有个先天的缺点:一旦传输层流量被加密, 就无法依据特征码进行流量识别。近年来, 使用机器学习方法进行流量识别的研究有了很大发展, 这种方法不需要了解流量负载信息。文献[1]使用机器学习方法进行流量识别, 并对有监督的机器学习方法和无监督的机器学习方法进行分析和对比, 指出后者具有很大的优势。不过, 该文中提到的这些基于机器学习的流量识别方法需要在流量结束之后才能将其识别出来, 并且无法把流量所属的具体应用程序自动标识起来, 这个缺点使得用户无法对网络流量进行及时有效的管理。文献[2]提出了一种早期识别技术, 可以在TCP流量开始之初将其识别出来, 这为及时地流量管理提供了可能。本文在早期识别技术的基础上, 提出了一个基于机器学习的流量识别和管理方案。该方案简单易行, 适合于大型和私有网络, 可以识别出流量对应的应有程序, 具有很强的可扩展性。

1 系统总体设计

基于机器学习的流量识别分为学习和识别两个阶段。所谓学习是使用聚类技术将已存在的流量数据按照其相似的特性, 分类成不同的簇。而识别阶段的工作在于, 当新的流量到来时, 能够及时地将该其归类于正确的簇中。

根据以上所述的识别过程, 本文所述的系统可以分为如下几个模块:数据采集、学习分类、识别管理。这些模块的关系如图1所示。

数据采集模块将因特网数据进行过滤, 仅保留TCP连接, 然后将流量特征选择记录下来。

分类学习模块使用聚类算法将采集的流量数据分类成簇, 并使用系统预定义簇与生成簇进行对比, 得到组成生成簇的所有应用程序信息。在理想情况下, 每个生成簇应该只包含一个应用程序。

识别管理模块使用生成簇及其应用程序组成信息, 将因特网上的流量归类在合适的簇中, 并将其所属的应用程序标示出来, 然后根据用户定义的规则, 对流量进行管理。

2 数据采集模块

本模块主要功能是采集流量特征值, 用以作为分类学习模块的训练数据。因特网上存在着各种各样的流量, 我们希望能够从中找到与应用程序相关的特征信息。

2.1 数据的选择

数据是整个识别方案的基础, 只有找到切实有效的数据信息, 识别的效率和准确度才能够得到保证。在方案开始之初, 我们选择在因特网上采集如下数据信息:

(1) TCP而非UDP。大部分应用程序都使用TCP进行数据传输。TCP作为一种基于连接的协议, 可以提供更多的特征用作数据处理, 并且不会因为数据包的丢失导致处理结果出现误差。

(2) 记录TCP流的前4个数据包的大小及方向。文献[2]指出TCP前4个数据包的大小和流量可以用来进行流量识别。为了便于记录及处理, 本方案在流量大小前加上正负号表示方向:从客户端 (连接发起端) 到服务器段 (连接接收端) 的方向为正, 反之为负。

2.2 数据采集过程

如上节所述, 我们只对TCP流量感兴趣, 所有使用其他协议 (UDP, ICMP等) 的流量将被过滤掉。在流量过滤之后, 所有的TCP连接的特征信息都会被记录下来。

本方案使用5元组代表一个TCP连接:源IP、目的IP、源端口号、目的端口号、协议。数据采集时遵循以下规则:

(1) 采集到SYN包时打开一个5元组。

(2) 在每个TCP连接语义结束 (FIN) 时, 或连接在90秒之内没有任何流量通过, 将5元组关闭。关闭时, 如果5元组没有采集够4个数据包信息, 则将该5元组删除。

(3) 对于每个打开的5元组, 在TCP三次握手过后, 采集随后到来的四个包 (非控制包) , 记录下每个包的大小和传输方向。

(4) 如果采集到的TCP包 (非SYNs或FINs) 没有找到对应的5元组, 或者对应的5元组已经采集满4个数据包信息, 则直接将该包抛弃。

3 分类学习模块

本模块的功能是对上一模块采集的训练数据识别分类, 将具有相似特征信息的流量聚集成簇, 并标示出组成每个簇的应用程序信息。所有这些代表不同流量特征信息的簇形成一个生成簇集。

3.1 生成簇集

生成簇集实际上就是对网络上所有TCP流量的一个分类描述, 每一个簇代表了具有相同特征的应用程序流量的集合。生成簇集对TCP流量分类描述的准确度, 决定了流量识别的准确度。我们需要找到一个可靠的准确度高的机器学习算法来得到生成簇集。

文献[3]对广泛使用的三种基于机器学习的聚类算法 (K-Means, DBSCAN, AutoClass) 进行分析和比较。它指出, 相对于其他两种算法, AutoClass不需要预先指定生成簇的个数, 并且在分类时具有较高的准确度。考虑到这一层, 本系统将使用AutoClass作为分类学习使用的算法, 并用此算法得到生成簇集。在理想情况下, 使用AutoClass生成的簇集中, 每个簇包含一个应用程序。

AutoClass是基于贝叶斯概率的非监督聚类方法。它使用EM算法 (Expectation Maximization algorithm) 计算得到簇的个数以及描述这些簇的参数向量, 然后依据这些数据, 创建概率模型。EM算法分为期望和最大化两个阶段。期望阶段将簇的参数指定为随机值。在最大化阶段, 使用平均值和方差对这些参数不断地进行修正, 直到它们逼近一个局部最大值。记录下这些局部最大值, 然后重复以上过程。当找到足够多的参数样本时, 算法终止 (本方案使用200次循环寻找参数样本) 。

3.2 标示簇的应用程序组成

簇集生成后, 我们需要知道组成每个簇的具体的应用程序。为了标示出应用程序, 本方案使用一个预定义簇集, 在该簇集中, 每个簇的应用程序组成都是预先知道的。本方案根据自定义的规则, 将生成簇集中的簇和预定义簇集中的簇对应起来, 以此得到生成簇集中各簇的应用程序组成。

3.2.1 预定义簇集

TCP连接建立后的传输的前4个数据包代表着应用程序客户端和服务器端商议的过程。这个过程通常传输一些预定义的信息, 因应用而异。从己有的研究结果可以看出, 同一个应用程序在每一次连接建立时, 都具有相似的商议过程。这就意味着, 我们在一个网络里得到的应用程序分类结果, 可以为其他网络参考和使用。正因为如此, 本系统使用一个包含大量应用程序信息的预定义簇集。通过该簇集, 与流量对应的应用程序可以被正确的标识出来。

为得到预定义簇集, 需要采集到每个不同应用程序的流量数据。可以使用以下几种方法进行采集:

(1) 手动方法:为采集某一特定应用程序的流量特征, 可以配置防火墙, 开通该应用程序连接, 而禁止所有其他连接通过, 这样就可以得到需要的流量数据。

(2) 自动方法:在流量采集的过程中, 使用基于端口号和特征码的识别方法, 将流量对应的应用程序标识出来。

考虑到如今海量的应用程序, 手动方法显得过于繁琐。而基于端口号和特征码的自动识别方法, 由于方法本身的局限性, 无法得到广泛应用。为了更快更好的生成簇集, 本系统采用如下策略:对于所有应用程序, 优先采用自动方法采集数据;如果失败, 则使用手动方法。我们更可以为用户提供手动采集的工具, 让用户将预定义簇集未包含的应用程序识别并报告上来。

为了标示出生成簇集中每个簇的应用程序组成, 预定义簇集必须足够大, 包含足够多的应用程序信息。为了做到这一点, 我们可以在线更新预定义簇集, 保证最新的应用程序都包含在该簇集中。

3.2.2 簇的对应和应用程序标示

本方案根据自定义的规则, 将生成簇集中的簇和预定义簇集中的簇对应起来, 两个对应的簇具有相同的应用程序组成。

如前所述, 本方案使用每个TCP连接的前四个数据包的大小和方向作为其流量特征。设某个TCP连接的前四个包的大小 (其正负值表示方向) 组成向量则每个簇s是一堆具有相似数值的向量的集合。簇sj的中心向量为:

对向量的每个组成元素求标准差

其中nj是簇sj中元素的个数。对于簇sj中的每一个元素有:

其中分别是簇sj的最小边界值和最大边界值。

对于生成簇集中的每个簇sj, 可以轻易计算出其与预定义簇集中每个簇Ym的交集, 设其交集边界为min its (sj, Ym) 和max its (sj, Ym) 。我们使用如下方程计算簇sj与簇Ym的相似度:

如果相似度大于某个预定值 (如90%) , 我们认为簇sj与簇Ym应用程序组成是一致的。

4识别管理模块

识别管理模块是本系统的核心部分。该模块的主要功能是将因特网上的TCP流量, 尽可能早的识别出来, 并将其归于合适的簇中, 然后根据用户定义的规则进行处理。

4.1流量识别

本方案流量识别的工作是使用贝叶斯算法, 在生成簇集中找到合适的簇, 将TCP流量归类于该簇中。贝叶斯算法的描述如下:

经过上一节的学习分类, 我们得到一个由k个簇s1 s2…sk组成的生成簇集。设某个TCP连接的前四个包的大小 (其正负值表示方向) 组成向量, 则属于簇sj的概率为:

我们使用高斯分布来近似

其中是簇sj的中心向量, 是其方差, 其方程为:

其中nj是簇sj中元素的个数。

对于每个新采集到的TCP流量, 我们按照最大可能值规则将其指定为簇sr:

4.2标示应用程序

在大多数情况下, 每个簇只包含一个应用程序。我们一旦将TCP流量归类为某个簇, 其所属的应用程序也能被标示出来。然而, 如果簇包含多个应用程序, 我们就不能将TCP流量所属的应用程序直接表示出来。

对于包含多个应用程序的簇, 本系统使用以下规则对其进行应用程序标示:

(1) 如果TCP流量使用的是IANA分配的标准端口, 则将流量标示为簇中使用同样端口的应用程序。

(2) 如果TCP流量使用的是IANA分配的标准端口, 而簇中不存在使用该端口号的应用程序, 则标示该流量为恶意流量。

(3) 如果TCP流量使用的不是IANA分配的标准端口, 则将其标示为簇中使用非标准端口的占主导地位的应用程序。在这种情况下, 应用程序的标示可能会出现误差。

(4) 如果TCP流量使用的不是IANA分配的标准端口, 而簇中不存在使用非标准端口的应用程序, 则标示该流量为恶意流量。

4.3流量管理

如前所述, 本系统使用5元组代表一个TCP连接。大家都知道, TCP的目的端即是服务器端。一旦某个TCP流量所属应用被标示出来, 我们可以将所有使用与该流量同一目的IP和端口的流量 (包括TCP和UDP流量) 标示出来。

用户可以使用以下策略对应用程序流量进行管理:

(1) 禁止:不允许属于某个应用程序的流量通过。

(2) 开放:允许属于某个应用程序的流量通过。

(3) 限制:允许属于某个应用程序的流量通过, 但是其上行或下行速度必须符合限制。

5结束语

本文介绍了一个基于机器学习的流量识别和管理方案。该方案将因特网上的流量所属的应用程序实时的标示出来, 并按照用户自定义策略进行管理。

当然该方案还有可以改进的地方, 如标示应用程序在某些情况下的准确度不够高, 可能会出现错误。这些都需要做进一步的研究。

参考文献

[1]J.Erman, A.Mahanti and M.Arlitt.Internet Traffic Identification using Machine Learning[C].SIGCOMM’06.Pisa.Italy.September11-15.2006.

[2]L.Bernaille, R.Teixeira, I.Akodkenou, A.Soule, andK.Salamatian.Traffic classification on the fly[C].SIGCOMM Comput.Commun.Rev.2006.

流量识别系统篇6

收益质量的分析目的就是要分析现金是否随利润同步变化。在传统的分析体系中是以收益能力来代替收益质量的,而收益能力指标存在缺陷,用其反映企业的收益状况不够准确、客观;另外,从收益质量的含义中也可以看出,收益质量是以收付实现制为基础的,这与传统分析指标的权责发生制基础也不一致。现金流量表是以现金为基础编制的财务状况变动表,反映企业在一定期间内现金的流入和流出,表明企业获得现金和现金等价物的能力。它与资产负债表及利润表一同构成了企业完整的财务报表体系。投资者想要全面了解企业的财务信息,必须学会分析现金流量表。

1 现金流量表分析的必要性

1.1 现金流量表比利润表更能说明企业的偿债能力和支付能力

现金流量是反映企业实际收到和付出的现金,而不论其归属期,其数量是按收付实现制来确定的。由于受通货膨胀因素影响,净利润的多少并不能真正代表企业实际的资产变现能力和支付能力。有些公司虽然净利润较高,但时常会因偿付能力不足而受到清盘的威胁;反之,有些企业虽然发生经营亏损,但能通过变卖资产、发行股票和债券或从外借贷等渠道取得周转资金,从而使企业的财务状况变得稳定。由于现金是一项变现能力最快、流动性最强的流动资产,企业的偿债最终靠现金来实现。因此,现金流量的大小最能说明企业的偿债能力和支付能力。

1.2 现金流量表弥补了权责发生制对会计信息产生的不良影响

现金存量比其他资产存在方式更容易检查和验证。权责发生制对收入与费用的确认存在主观估计成分,易产生人为调节利润的弊端,如通过固定资产折旧、存货计价方法的选择以及收入的确认等方式来调节利润,影响企业的财务状况和经营成果。由于利润容易被人为操作,因此验证的难度较大。现金流量表所揭示的信息是企业的现金流量,即企业的现金流入、流出和结余情况,可以直接用于分析和评价企业经营状况、支付能力和偿债能力,能为投资者、债权人正确决策提供有用的信息。

1.3 现金流量表考虑了风险和通货膨胀的影响,其数据来源更加可靠

企业的经济活动深受通货膨胀的影响,以权责发生制为基础编制的利润表是以应计收入和应计费用进行会计处理的。同时,以历史成本原则计价呆滞存货和呆滞债权,而企业也可制造虚假的账面利润,使得拥有可观账面利润的企业可能并没有足够的现金可供支配使用,进而使其信息的真实性受到影响。而以现金为基础编制的现金流量表则可排除这种影响,报表使用者可以直接以当前物价水平衡量企业资产受通货膨胀的影响程度,了解和评价企业获得现金的能力,预测企业未来现金流量,估计投资风险,从而作出正确的投资决策。

2 收益质量的识别

影响收益质量的因素是多方面的,主要包括企业资产状况、经营状况、会计准则、会计政策的选择、公司治理结构等方面,这些因素是影响企业收益质量水平高低的原因所在。利用现金流量表有关指标进行财务比率分析是有效、快捷地分析上市公司的收益质量的一个很重要的方法。具体表现为采用主营业务收现率、现金营运指数、盈利现金比率、每股经营现金净流量、投资现金收益率、资产现金回收率、再投资比率、每股现金流量增长率指标等,分析判断上市公司的收益能力和收益质量。

2.1 主营业务收现率

主营业务收现率=销售商品、提供劳务收到的现金÷主营业务收入

该指标反映企业当期每实现一元的主营业务收入能够带来多少的现金回收流入,是用来评价企业主营业务现金回收质量的指标。企业的收益主要是通过产品销售来实现的,而收益质量则要通过产品销售过程中收到的现金来体现。此项指标值一般应在1左右,比率越高,说明企业本期实现的主营业务收入有越多的现金回收流入,主营业务收入现金回收质量较高;如果该指标过低,说明销售环节运作不正常,可能存在大量赊销,或企业的收款工作存在问题,可能造成企业严重的虚盈实亏。

2.2 现金营运指数

现金营运指数=经营现金净流量÷经营活动所得现金

经营所得现金是经营活动净收益与非付现费用之和。该指标反映经营所得现金中产生现金净流量的能力。小于1的营运指数,说明收益质量不够好。因为,如果营运指数小于1,说明经营现金净流量小于经营所得现金,它们的差额被投入到营运资金上,即应收账款增加、应付账款减少、存货增加等使实际得到的经营现金减少;同时说明一部分收益尚没有取得现金,停留在实物或债权形态,而实物或债权资产的风险大于现金,应收账款能否足额变现难以确定,存货也有贬值的风险,所以未收现的收益质量低于已收现的收益。另外,营运指数小于1,说明营运资金增加了,反映为取得同样的收益占用了更多的营运资金,取得收益的代价增加了,同样的收益代表着较差的业绩。

2.3 盈利现金比率

盈利现金比率=调整后的经营现金净流量÷净利润

其中,调整后的经营现金净流量=经营现金净流量+分得股利或利润收现+债券利息收现-利息付现-筹资费用付现。

在我国的现金流量表中,分得股利或利润收到的现金、债券利息收入收到的现金等并不作为经营活动现金流入,而列在投资活动中;付现利息和筹资费用不作为经营活动现金流出,而列在筹资活动中,并且这些项目均反映在净利润中,这样使得净利润和经营活动现金净流量的可比性口径不一致,因此,作此调整。该指标反映企业在经营中每1元净利润中实际收到多少现金,一般比率越大,净利润的现金实现程度越高,收益质量就越高。如果比率小于1,说明本期有部分利润没有相应的现金流入,在这种情况下,即使企业盈利,也可能发生现金短缺。这个比率鲜明地体现了权责发生制与收付实现制在分析盈利质量上的差异。经营现金净流量才是企业经营中产生的能完全使用的资金,才是企业现金的主要来源,通过这个指标才能准确说明企业收益质量。

2.4 每股经营现金净流量比率

每股经营现金净流量比率=调整后的经营现金净流量÷股本

对于上市公司来说,该指标能反映企业每股最大分派股利能力。每股净收益不能表示发放股利的能力,所以该指标比每股净收益更客观、实际。当企业的每股经营现金净流量经常性地大于每股净收益,则企业在经营中能产生充足的资金来源,这是企业现金流量的最佳状态;反之,企业将面临现金支出拮据的状况。

2.5 投资现金收益率

投资现金收益率=分得股利或利润收到的现金÷投资收益

该指标可反映企业账面投资收益的质量。这个指标越高,说明企业投资收益质量越高;反之,则企业的投资收益中可能存在虚假的现象,以此来粉饰业绩。通过这个指标的计算,可以直接披露和遏制一些企业为追求短期账面利润而采取所谓的资产兼并、重组、置换、交易等关联业务的手段来“包装”利润的恶意炒作。

2.6 资产现金回收率

资产现金回收率=调整后的经营现金净流量÷总资产

它表示每1元资产所能获得的经营现金流量,比例越高,企业资产的利用效率越好,日常经营获取现金收益的能力越强。如果用资产净利率来衡量总资产收益质量,那么由于权责发生制核算的原因,部分净利润只是账面上盈利。

2.7 再投资比率

再投资比率=经营现金净流量÷资本性支出

收益质量分析不仅要反映本期创造的收益的质量,还应该揭示企业创造未来盈利的能力。企业未来收益能力可以用再投资比率来反映,再投资比率反映企业当期经营活动产生的现金净流量是否足以支付资本性支出所需要的现金。该比率越高,说明企业资本性投资的资金自给率越高,扩大生产规模和创造未来现金流量或利润的能力越强。如该比率小于1,则说明企业资本性支出所需要的现金除了经营活动提供以外,还包括外部筹集的资金。

2.8 每股经营现金净流量增长率

每股经营现金净流量增长率=(本年每股经营现金净流量-上年每股经营现金净流量)÷上年每股经营现金净流量

该指标能够直观地反映企业未来内部权益资金的增长状况及增长趋势。该指标大于1,说明企业经营活动现金净流量处于增长阶段,企业的发展前景良好;若等于1,说明企业经营活动现金净流量与前期持平,企业的发展前景一般;若小于1,说明企业经营活动现金净流量减少,企业如果不增发股票,则其发展前景不妙。

除以上指标外还可以从其他指标识别,特别注意的是,在运用现金流量表分析企业的收益质量时,还要结合资产负债表和利润表,进行同行业比较分析,才能得到正确的结论并作出恰当的决策。

摘要：收益是衡量企业经营情况及盈利能力的一个基本指标。如果要客观、准确、全面地认识企业的盈利能力,首先要从数量和质量上对会计收益进行评价。文章阐述了现金流量与会计收益的差异,利用现金流量表对收益质量进行识别的必要性及现金流量表的分析方法,提出了如何识别收益质量的方法。

关键词：收益质量,现金流量表,识别

参考文献

[1]朱鸣霞,张春景.基于现金流量表的盈利质量分析[J].财会通讯,2005(9):27-30.

[2]吴丽君.我国上市公司收益质量的实证分析[D]:[学位论文].江苏大学,2006.

[3]苟开红.上市公司收益质量综合评估模型及实证研究[J].当代财经,2005(4):113-116.

[4]邱玉兴,车丽华.我国投资者如何理性分析上市公司收益质量[J].商业研究,2005(11).

[5]李林.上市公司收益质量的报表分析[J].当代经济,2007(6): 20-21.

基于集成分类器的流量识别技术研究篇7

近年来随着互联网的飞速发展, 各种不同的网络应用层出不穷, 网络流量的复杂性和多样性给流量分类带来了巨大挑战。

实时的流量统计有能力帮助网络服务提供商和设备供应商解决网络管理问题, 流量分类是自动入侵检测系统的核心组成部分[1], 用来检测拒绝服务攻击, 政府也阐明ISP有责任尊重合法的网络流量监听[2]。

简单的流量分类技术假定网络应用使用熟知端口。为了避免被这种方法检测, P2P应用使用动态随机端口, 并且开始使用HTTP或FTP这样的通用协议端口来伪装自己[3]。然而很多研究[4,5]表明, 这种基于端口 (Port-based) 的流量分类方法被迅速淘汰了。Port-based和Payloadbased的局限促进了传输层统计流量分类被提出[6]。

很多研究人员开始寻找接近于机器学习 (Machine learning ML人工智能领域的一个子集) 的技术来解决流量分类问题。对网络流量按照应用类型准确地识别和分类是许多网络管理任务的重要组成部分, 为了适应网络流量数据庞大, 动态变化的特点, 利用机器学习方法处理流量分类问题成为新的研究热点。

1 技术设计

本文提出了基于应用的集成分类器, 为每一个网络应用单独训练一个基分类器, 该基分类器只负责判断未知网络流是否属于该应用, 不同应用基分类器的训练可以并行处理。并行判断结果汇集到决策模块, 最终裁决出一个结果, 这个未知的网络流属于哪种应用。

1.1 总体技术设计

整个集成分类系统就是由应用基分类器和簇基分类器这两层集成构成的。在训练阶段, 每个应用基分类器独立地进行训练, 只负责判断一个未知网络流是否属于自己的应用。如图1, HTTP, FTP, LIME应用都单独训练了一个基分类器。

每一个未知的网络流并行地提交给每一个应用基分类器, 它们的判断汇集到决策模块, 裁决最终的结果。如图2所示, HTTP, FTP, LIME基分类器都给出了Y或N的判断, 在决策模块内, 裁决出流向量的应用类别。

在训练阶段, 网络流数据集首先经过一次聚类, 分成若干个簇, 在每个簇的内部单独训练一个基分类器, 它们专注于学习簇内部的分类边界。如图3所示, 聚类产生的簇中心集将在测试阶段使用, 不同簇都训练出一个基分类器。

一个未知的网络流首先进过与训练阶段生成的簇中心集的距离计算, 判断该网络流落在哪一个簇上, 然后调用该簇的基分类器, 给出预测结果。如图4所示, 如果未知流向量落在簇K上, 那么簇K的基分类器就对流向量做出预测。

1.2 簇基分类器设计

1.2.1 K-Means聚类

在多个簇基分类器集成的系统中, 训练阶段, 网络流向量首先要经过一个聚类处理过程, 本文选择的聚类算法是K-Means, 因为它的简单和快速。K-Means算法将数据集中的对象划分到事先指定的K个互斥的子集中, 这些子集称为簇。在每一个簇中, 划分算法都通过最小化簇内部的平方误差来最大化簇的同一性。平方误差见公式1:

在每一个簇内部, 都计算所有对象和簇中心点的距离的平方, 然后累加这些平方距离。Ci就代表了第ith个簇的中心。这里的距离度量是欧式距离, 即公式2:

初始状态, K个簇的中心是在子集空间中随机选取的。数据集中的对象随后被划分到距离最近的簇中, K-Means迭代地计算每个簇新的中心点, 然后根据这些中心点再次划分所有的对象。K-Means算法重复这个过程直到所有簇中的对象都稳定不再变化, 这样就产生了最终的一个划分。

1.2.2 集成的分类算法

在每个簇上单独训练的簇基分类器, 可以选择各种有监督的分类算法。

(1) 支持向量机

基于统计学习理论的支持向量机 (SVM) 是一种广泛应用的机器学习算法, 支持向量机的基本原则是构造最优的划分超平面, 在n维特征空间中, 能够使距离超平面最近的样本与超平面间的距离最大化。

输入向量可能并不是线性可分的, 支持向量机将低维的输入向量投影到高维的向量空间中, 通过升维的方式将非线性可分问题转换为线性可分问题。本文选择了顺序最小优化 (SMO) 的SVM实现方案, 这种高效的实现使用成对分类方法, 将多类别分类问题分解成一系列的二分类子问题, 消除了数值最优化的需求。

在本文的集成分类系统中, 每一个应用基分类器要处理的正是二分类问题, 应用基分类器内部的簇基分类器选择由SVM实现, 充分利用了SVM处理二分类问题的优势。

(2) 朴素贝叶斯

朴素贝叶斯分类器建立在贝叶斯理论之上。这种分类技术解析每个属性和类别的关系, 得到类别在该属性下的条件概率。我们假设X是许多实例的一个集合, 每一个实例由属性{X1, …, Xk}描述, 随机变量C表示该实例的类别。而x和c分别是特定的实例和特定的类别。

训练阶段, 每种类别的概率通过计算在数据集中出现的次数获得, 称为先验概率。在先验概率的基础上, 计算给定c时x的条件概率。

一个实例x属于类别c的概率可以根据公式3计算:

(3) 贝叶斯网络

贝叶斯网络是有向无环图和一个条件概率表的结合。有向无环图中的结点表示特征或类别, 而连接两个结点的边表示二者之间的关系。

条件概率表决定了这些边的连接强度。对每一个结点, 条件概率表定义了给定父结点时的概率分布。如果一个结点没有父结点, 那么概率分布就是无条件的。如果一个结点有多个父结点, 那么概率分布就是给定父结点时的条件概率。

贝叶斯网络的学习分为两个步骤, 结构化学习和概率分布计算。

1.3 决策模块设计

在集成分类系统的测试阶段, 不同的应用基分类器都给出对于未知网络流的判断, 即是否属于自己负责的应用。这些判断汇总到决策模块, 最终裁决一个结果, 本文提出了两种决策算法:

1.3.1 依据簇纯净度

一个应用基分类器给出的结果, 必然是内部某个簇上训练的基分类器做出的预测。对每个簇Clusterk由两类流量构成, 属于该应用的 (Y) 和不属于该应用的 (N) , 定义属于该应用的流量所占的百分比为簇纯净度, 见公式4。

决策时有下列几种情况:

(1) 只有一个应用基分类器判断Y, 而其他应用基分类器判断N, 该应用的置信度为正, 而其他应用的置信度为负。

(2) 多个应用基分类器判断Y, 产生冲突, 这时选取置信度最高的应用。

(3) 没有一个应用基分类器判断Y, 这时所有置信度都为负, 但置信度最高的应用是相应簇纯净度最高的应用。

1.3.2 依据基分类器精度

每个应用基分类器训练完成后, 使用同样的训练数据对自己进行一次测试。计算每个应用的TP, FN, FP, TN, 定义每个应用App的置信度如下:

在训练数据上进行一次简单的测试, 评估每个应用基分类器的置信度。将来在测试阶段, 如果不同应用的判断结果产生冲突, 选择信任具有最高置信度的应用即可。

2 试验评估

2.1 实验数据集

实验数据集为NIMS (Network Information Management and Security Group) 捕捉的。客户机通过SSH连接外部的四台SSH服务器产生的流量。通过SSH运行了六种不同的服务:Shell login, X11, Local tunneling, Remote tunneling, Scp和Sftp, 也捕捉了几种主要的背景流量, 如DNS, HTTP, FTP, P2P (limewire) 和TELNET。为了得到训练集和测试集, 首先将NIMS数据集分为两个数据子集, 分别为NIMS1和NIMS2, 在这两个数据子集中每类样本的比例与NIMS基本保持一致。

本文中不同算法的训练样本都取自NIMS1, 而NIMS2作为测试数据集用以评估不同算法的效果, 分别使用基于相关性 (CFS) 和信息增益率 (Gain Ratio) 的方法处理NIMS1数据集。其中CFS方法贪心向前搜索和贪心向后搜索都得出同样的特征子集, Gain Ratio得到的信息增益率最高的前八项为18、3、1、5、7、4、9、2。综合分析后 (数据表略) , 决定选取1、2、3、4、5、6、7、8、9、18为特征子集, 这10项特征中主要包括双向的数据包大小分布数据和协议。

在聚类个数K=10, 分类算法为支持向量机, 决策算法为簇纯净度时, 使用全部22项特征训练集成分类系统, 其总体准确率为94.1%, 使用约简后的10项特征训练, 总体准确率为91%。在约简了一半特征后, 总体准确率只下降了3%, 表明这10项特征具有很好的代表性, 以下的实验都将选取这10项特征。

2.2 聚类个数K分析

使用聚类 (如K-Means) 处理流量分类问题时, 簇与应用并非是1:1的映射, 通常簇的数量都大于应用的数量。

分类算法为支持向量机, 决策算法为簇纯净度时, 集成分类系统的总体准确率随着聚类个数K的增加而增加, 但准确率提升越来越慢 (图略) 。在聚类个数达到80时, 总体准确率达到98%, 基本收敛。集成分类系统的总体准确率可以通过增加聚类个数K来提升, 在以下的实验中, 我们选取聚类个数K=50。

2.3 决策算法比较

在聚类个数K=50, 分类算法为支持向量机时, 分别比较簇纯净度决策算法和基分类器精度决策算法, 实验结果略。依据簇纯净度和基分类器精度的决策算法, 在大多数应用上都有相同的准确率表现, 两者在大多数情况下做出了一致的决策。

考虑到聚类个数K可能对结果产生不同的影响, 在分类算法为SVM时, 随着聚类个数K的增加, 分别测试不同决策算法的效果, 对比图略。经分析得出:只有在K<10时, 两种决策算法的准确率略有出入, 随着K的增加, 依据簇纯净度和基分类器精度的决策算法效果没有差别。

2.4 与支持向量机比较

在聚类个数K=50, 分类算法为支持向量机, 决策算法为簇纯净度时, 集成分类系统的各应用识别准确率都高于支持向量机方法 (除了DNS) , 尤其是lime (准确率从56.6%提升到91%) 和scp (准确率从0%提升到93.7%) 。总体准确率也由83.62%提升到96.93%。其中scp的识别完全失败。在SSH通道上传输的六种协议, Shell login, X11, Local tunneling, Remote tunneling, Scp和Sftp的识别准确率都得到了提高。

2.5 与朴素贝叶斯比较

在聚类个数K=50, 分类算法为朴素贝叶斯, 决策算法为簇纯净度时, 训练并评估集成分类系统, 然后在同样的训练集上训练朴素贝叶斯分类器。经实验表明, 朴素贝叶斯分类器在scp的识别上完全失败, 而集成分类系统能够达到95.1%的识别准确率, 集成分类系统的总体准确率也由85.8%提升到95.8%, 效果显著。

2.6 与贝叶斯网络比较

在聚类个数K=50, 分类算法为贝叶斯网络, 决策算法为簇纯净度时, 训练并评估集成分类系统, 然后在同样的训练集上训练贝叶斯网络分类器, 集成分类系统的总体准确率相比也有明显的效果优势, 由96.7%提升到97.9%。

3结论

(1) 使用CFS和信息增益率对原始的22项流量特征进行约简, 选择了包括双向数据包大小分布和传输层协议在内的10项特征。使用这10项特征训练集成分类系统, 整体准确率达到91%, 只下降了3%, 表明特征值约简后的10项特征具有很强的代表性。

(2) 聚类个数K从1增加到80, 集成系统的整体准确率从67%提升到98%, 提升效果越来越缓慢, 表明可以通过增加聚类个数K来提高系统的准确率。

(3) 本文提出的两种决策算法:依据簇纯净度和依据基分类器精度, 效果相差不大, 选择训练开销较低的簇纯净度决策算法。

(4) 集成分类系统分别集成支持向量机, 朴素贝叶斯, 贝叶斯网络进行实验, 实验结果表明集成分类系统能够显著提高支持向量机和朴素贝叶斯分类器的准确率。

参考文献

[1]Snort-The de facto standard for intrusion detection/prevention[OL].http://www.snort.org, as of August 14, 2007.

[2]F.Baker, B.Foster, and C.Sharp, Cisco architecture for lawful intercept in IP networks, Internet Engineering Task Force, RFC 3924, 2004[Z].

[3]Karagiannis T, Broido A, Brownlee N, et al.Is p2p dying or just hiding?[p2p traffic measurement][C]//Global Telecommunications Conference, 2004.GLOBECOM'04.IEEE.2004, 3:1532-1538.

[4]Karagiannis T, Broido A, Faloutsos M.Transport layer identification of P2P traffic[C]//Proceedings of the 4th ACM SIGCOMM conference on Internet measurement.ACM, 2004:121-134.

[5]Sen S, Spatscheck O, Wang D.Accurate, scalable in-network identification of p2p traffic using application signatures[C]//Proceedings of the 13th international conference on World Wide Web.ACM, 2004:512-521.

流量识别系统篇8

目前,主要的涡街信号检测方式有热丝式、电容式、应力式、差压式和超声式,其中效果最好、应用最广泛的为应力式和差压式。由于动态响应频率限制,差压式检测方式在流量超过一定值后会出现信号强度失真现象[2],限制了其在工业生产中的应用。应力式检测方式在信号稳定性、频率测量、信号幅值上较其他检测方式有很大的优势[3]。但是其对外界振动和流体的流动状态特别敏感,如管道振动、管道流体的冲击力以及由于流量的变化产生的随机脉动压力等干扰,都会对流量的测量产生很大的影响。因此抗振问题成为提高涡街流量计性能的关键,也成为涡街流量计在实际应用中的突出问题。

当前,国内外学者为解决涡街流量计抗振问题做出了广泛而深入的研究,就探头抗振结构方面有如下研究: 选择在梁结构的振动弯矩零点处粘贴压电陶瓷来检测涡街信号; 使用悬臂梁结构, 在探头内和管道外贴装两对压电元件,用管道外压电元件检测到的振动信号去补偿探头内压电元件检测到的涡街振动混合信号[4]; 双探头内置于管道中,两个探头之间距离为同列涡街距离的一半,使两个探头信号相位差180°,同时感受相同的振动干扰信号,两信号相减,使涡街信号增强一倍而使混叠的振动信号相互抵消[5]; 双压电元件放置在悬臂梁式探头的圆柱体腔内,并关于法兰上下对称制成三线共地涡街探头[6]; 菱形探头设计,检测探头扭矩,探头管道内部分设计成菱形, 管道两侧的漩涡分别作用在菱形探头的前后锲面,使其产生扭矩。压电晶体按照检测扭矩的方式安装,振动信号不产生扭矩,从而实现纯涡街信号检测[7]。

1识别涡街测量中振动信号的方法1

从文献可以看出,当前涡街探头的抗振设计主要还是以信号补偿和进行数字处理为主,这些方法理论上效果很好,但在实际应用中,由于探头制作工艺水品不高,无法达到设计原理中的对称结构或压电元件的对称安装要求,致使补偿效果不佳; 或者由于振动问题本身较为复杂,某种方法只能从某个方面降低振动干扰影响。这一系列问题使得上述方法实际运用效果与理论差距甚远。

事实上,振动载荷在频率、作用位置和方向上都与涡街信号有着显著的差别。因此,从振动载荷作用在传感器的机理上进行区分有着重要意义。笔者从振动载荷与涡街载荷作用方向的差异出发,提出区分振动干扰和涡街信号的新思路,即通过测量加速度来获取涡街频率信号和振动干扰,并通过实验验证此方法的可行性,揭示其解决抗振问题的潜力。

1. 1实验装置

为模拟管道振动,建立如图1所示的基于电磁振动台的负压法气体管道振动装置。管道末端连接离心风机从管道中抽气,保证实验管段微负压。PC机通过RS485总线连接,控制变频器来调节风机转速从而改变管道内的气体流速。实验暂不要求精确的流量控制,所以整个系统流量控制为开环。气体流量通过气体涡轮流量计读取( 精度1% ,口径50mm,流量测量范围5 ~ 100m3/ h) 。实验管段口径D = 50mm,仪表上游直管段长20D,下游长10D,实验管段和仪表通过夹具固定在振动台上。为了防止实验管段的振动影响标准表,实验管段和下游管段采用软管连接。整个振动台系统以闭环控制方式运行,可输出正弦、随机及脉冲等不同形式、不同强度的激振力。

1. 2管道振动的基本现象

在提出新的检测方式之前,先讨论一个关于管道振动的基本现象。工业现场的振动情况十分复杂,振动形式、幅度、频率还有方向都不唯一,尤其是振动方向。工业现场的振源多为风机及空压机等机械设备,这些设备的振动方向至少是在某个二维平面内变化的; 同时,工业管道的质量分布不均匀也会导致振动在其上传递过程中会发生方向扩散。换句话说,由于管道振动导致的仪表振动方向并不单一,而是在以管道为法相的平面内做不确定方向运动。笔者通过实验验证该现象。

实验管段在振动台上的安装方式如图2所示。实验管段通过夹具固定在振动台上,表体伸出实验台面且与实验台面中心距离为L; 以此模拟振源使管道振动,激振力通过管道传递到表体。控制振动台使其保持z方向正弦振动,频率分别为30、50、100Hz,强度为0. 1g( g为重力加速度) , 改变距离L使其分为450、650、900mm。通过测量3个方向的加速度值( 图3) 来分析振动状态。

首先,从图3中任意一幅图均可以发现: 虽然激振力方向为z轴方向,但振动经过管道传递后, 在表体可以检测到3个轴向分量的加速度,其大小不同,z轴与激振力方向相同,所以振动分量最大,x、y轴也有振动分量且x轴振动大于y轴振动。其次,从3幅图的曲线可以发现,随着激振频率的提高,各个轴向的振动幅度逐渐减小,最终振动都趋近于零。这是因为在保持加速度不变的条件下,随着激振频率的增大,振动台振动幅度减小,较小幅值的振动更容易在管道传递过程中衰减甚至消失,最终到达仪表时各个方向上已无法产生有效的分量。最后,对比3幅图的曲线可以发现,随着表体不断远离振源( 即L逐渐增大) ,3个轴向的振动分量逐渐变大,z轴分量增大趋势尤为明显,这跟实验管段的固定有关。由于实验管段的一端处于悬空状态,近似于悬臂梁振动,越远离固定端,振动幅值越大。因此在L = 900mm实验条件下,各个方向振动分量也就增大。

1. 3区分振动信号的思路

从上述实验可以看出即使是单一方向的激振力,经过管道传递后作用在仪表上时,在3个轴向都会产生振动分量。因此振动信号具有方向上多样、不唯一的特点,然而涡列对涡街探头的冲击方向是唯一的,即图4中y轴方向。涡街载荷方向唯一,而振动载荷方向不唯一,那么对探头末端进行分析,其在y方向受到涡街载荷叠加振动载荷y向分量; z方向载荷主要为振动载荷z向分量; x方向载荷将包含振动载荷x向分量以及其他沿流场方向的冲击载荷。如果能够采集到不同方向载荷信号,通过z轴信号即可辨识出振动信号频率, 在此基础上对y方向信号进行处理即可区分出振动干扰和涡街信号,以此提出以方向区分二者的新思路。加速度作为既有方向又有大小的矢量信号,在方向的区分上有着自身的优势。基于MEMS工艺的三轴加速度计采用IC封装,较小的尺寸使其可以安装在探头的末端,从而直接检测3个轴向的加速度信号。漩涡冲击探头末端使其产生y轴向的形变,形变通过加速度信号反映,分析加速度计y轴输出的电压信号即可得到涡街频率。另外,振动载荷在3个方向的分量亦可通过加速度信号检测出来。这一思路通过识别z轴的振动信号即可对y轴的混叠信号进行区分。传统检测方式只能得到一维信号,而通过三轴加速度计检测到的信号上升为三维信号,可以为后续抗振处理提供更多信息。

2验证实验

2. 1无振动条件下涡街测量实验

将加装加速度计的涡街探头安装在表体上进行实流实验,首先进行无振动情况下流量实验。关闭振动实验台,开启风机并将流量调节至66. 1m3/ h,采集探头输出的三轴向加速度信号并对信号进行功率谱分析。

从图5可以看出,在无振动情况下,x、y轴的功率谱分析结果没有发现有明显的尖峰频率,只有涡街敏感轴z轴在功率谱分析中出现了164Hz的尖峰,这个尖峰频率在10s的信号采集时间内稳定存在,并且这一尖峰频率具有一定带宽,这些特性都符合涡街信号特征,可以判定探头的z轴方向能成功检测到涡街信号。

2. 2振动条件下涡街测量实验

接下来开启振动台,设定振动台保持100Hz频率、0. 1g强度的正弦振动状态,同时开启风机并调节流量至66. 1m3/ h,再次采集3个轴向输出的加速度信号并做功率谱分析。

如图6所示,在3个轴向的信号中都出现了50Hz工频干扰,这是由于电动振动台所需励磁电流很大,电磁干扰、串扰较难去除,不过由于涡街频率和振动频率距离50Hz较远且工频干扰带宽极窄,可以不考虑工频干扰带来的影响。从图中可以看到z轴检测到164Hz的信号,结合图5c可以判定是涡街信号,同时也检测到频率为100Hz的振动信号,说明振动信号确实混叠到涡街信号中。在振动条件下测量涡街信号,随着流量的降低,涡街信号强度会不断地减小,最终小于振动信号强度,或者当振动频率和涡街信号频率接近时, 就很难在z轴向信号中将两者区分出来。观察振动信号敏感轴x轴信号,发现没有检测到涡街信号或者检测到的涡街信号强度远远小于振动信号,那么通过x轴信号可以方便地获得振动干扰频率。结合涡街敏感轴z轴和振动敏感轴x轴的信号进行分析和处理,即可有效地去除振动信号的干扰。

3结束语

涡街流量计基于流体振动原理,其对振动干扰尤为敏感。解决振动干扰对于涡街流量计发展有着重要意义。笔者通过实验证明了由于振动产生及传导的复杂性,受干扰表体振动方向并不唯一,漩涡冲击探头的方向确是唯一的。由此提出了通过方向区分涡街信号和振动信号的方法。将加速度传感器与探头结合,得到3个方向的加速度信号,成功检测到了涡街信号,同时在振动干扰作用下,同时检测到了涡街信号和振动信号。实验证明了这种新方法的可行性,为涡街流量计抗振研究提供了新的思路。

参考文献

[1]Huang Y,Zhang H,Sun Z Q.The Development of Vortex Flowmeter[J].Chinese Journal of Sensors and Actuators,2006,19(3):776~782.

[2]孙志强,张宏建.压电式与差压式涡街流量计测量性能比较[J].化工自动化及仪表,2007,34(6):75~78.

[3]薛婧.应力式涡街流量计幅频特性测试方法的研究与实现[D].上海:上海大学,2009.

[4]陈进鸿,石尔.影响涡街流量计测量准确度的几个因素[J].广东化工,2009,36(11):132~133,154.

[5]Maiu J J,Hu C C,Chou J H.Response of a Vortex-meter to Impulsive Vibrations[J].Flow Measurement and Instrument,2000,11(1):41~49.

[6]张涛,孙宏军,张金晶.抗周期振动型涡街探测器[P].中国:CN 201540128 U,2010-08-04.

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【流量识别系统】相关文章：

流量识别方法06-03

P2P流量识别技术分析09-11

数据流量预警系统论文05-14