网络异常检测系统的设计与实现文献综述

 2023-08-16 04:08
  1. 文献综述(或调研报告):

通过阅读异常检测领域的相关文献,对当今的异常检测技术有一个全面的认识。异常检测的流程是首先输入数据,对数据进行处理,处理的手段要根据所用异常检测技术的需要,随后对数据应用异常检测技术[1].讨论异常检测技术,首先讨论异常,异常是指数据中不符合正常模式明确特征的模式,异常可分为点异常:一个特定的数据实例偏离正常模式;上下文异常:一个数据实例在上下文中表现出异常;集体异常:一组相似的特征实例表现出偏离于数据集的情况。常见的异常攻击类型有:拒绝服务攻击Dos,探测攻击,用户到跟U2R,远程到用户R2U,网络攻击类型和异常类型有相应的映射,Dos常被认为是集体异常,探测攻击是上下文异常,U2R,R2U两种的攻击方式常特定和复杂,因而被认为是点异常。根据文献[2]目前常用的对于异常检测结果的输出可分为二进制标签(即正常或异常)和分数(通过一个0-1范围内的得分表示异常程度)。

目前流行的异常检测技术可以分为四类:

1基于分类的,基于分类的技术依赖于专家对网络攻击特征的广泛了解。当网络专家向检测系统提供特征的详细信息时,具有已知模式的攻击一经发起就可以被检测到。这完全取决于作为系统的攻击的签名,只有在网络专家提前提供攻击的签名时,系统才能检测到攻击。分类技术又有支持向量机,贝叶斯网络,神经网络,基于规则四种[3]

2 基于统计理论,这种方法的基本思想是检测出异常事件与正常事件的偏离,距离度量基于卡方检验统计量,当统计量较大时,则为异常。基于统计理论,有混合模型,信号处理技术,主成分分析三种技术[4]

3信息论,信息论方法可以用来建立相应的异常检测模型,熵,条件熵,相对熵,信息增益等概念可以形容数据集的特征[5],以此为标准可以创建有效的异常检测模型并评估其性能。信息论的典型技术有相关性分析。

4基于聚类,聚类是无监督的异常检测技术,无需预先标记的数据即可分析出对目标数据进行分组的规则[6]。聚类可分为常规聚类和共聚,常规聚类对数据的行聚类,共聚则对数据集的行和列进行共聚。使用聚类检测异常时始终应做出的三个关键假设:1由于我们只能创建普通数据的聚类,因此任何与现有普通数据的聚类不符的后续新数据都被认为是异常。2当一个聚类既包含正常数据又包含异常数据时,已发现正常数据位于最接近的聚类质心附近,但异常远离质心,在此假设下,使用距离得分检测异常事件。3在具有各种大小的群集的群集中,较小和稀疏的异常可被视为异常

经过上面的阐述,有众多机器学习算法,文献[7]对于传统的基于特征分类的技术和基于机器学习的异常检测进行了比较:1在准确率上,针对具有特定特征的异常流量传统的分类计数具有较高的检测率,但遇到特征不完备时召回率很低,是一种简单的过滤检测方式,重点在于对已知异常的检测。而机器学习的方式由于是从多维去构建全方面的特征,所以在检测准确率和召回率上都具有明显的优势;2在效率上,特征匹配的方式不具有实时性,但对于特定的特征模式的异常能快速得出结果,相比之下,机器学习技术的检测效率受采用异常检测算法的影响,需要前期的学习才能对异常进行测试,总的来说也不太高。3基于机器学习的异常检测技术最大优势在于能充分的利用已有数据库,对未知的攻击行为模式进行分析并判断出来,这是传统的分类技术所不具备的。综合而言,传统的基于特征分类的技术是一种针对已有特定异常效率很高的技术,但在应对未知异常上则明显不如基于机器学习的技术。

机器学习是从数据中自动分析获得规律,并利用规律对未知数据进行预测的技术。它能模拟人类的学习行为,基于已有的数据总结经验研究出各种学习模型使得机器能具有学习未知知识的能力。基于机器学习的异常检测技术主要可分为有监督和无监督,有监督是指通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,无监督则没有样本,要自行对收到的数据进行分析。有监督学习算法是应用最为广泛,也最经典的机器学习方法。人工神经网络、支持向量机SVM、决策树,随机森林和朴素贝叶斯均是监督学习算法中最为经典和常用的算法[8]。无监督技术主要包含各种的聚类技术,代表算法如K-Means算法。近年来还有一些半监督式,将两种技术结合起来的技术,也值得注意。

异常检测技术除了需要对于算法的不断完善还依赖于所采用数据集的完备程度,本项目需要自建数据集,学习了经典的已有数据集KDD。KDD CUP99从出现至今一直是备受重视的数据集,具有完备的41条特征,然而KDD距今时间久远,它基于Solaris系统搭建,然而这个系统现在已经没有份额,使用的流量收集工具TCPdump很容易过载并丢失数据包,这都使得其对于异常检测算法评估失真[9]。尽管如此,KDD数据集的设计思想和特征选择仍有值得学习的地方。

数据集的特征上,由于网络攻击事件在时间上有很强的关联性,因此统计出当前连接记录与之前一段时间内的连接记录之间存在的某些联系,可以更好的反映连接之间的关系[10]。在实际入侵中,有些 Probing攻击使用慢速攻击模式来扫描主机或端口,此时需要基于主机的特征分析。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。