基于改进差分算法的网络异常攻击流量入侵识别方法

所属栏目:信息安全论文范文发布时间:2026-05-15浏览量:347

  摘要:目前方法对异常攻击流量的入侵很难精准识别,文中提出基于改进差分算法的网络异常攻击流量入侵识别方法。根据网络流量数据属性与攻击特征对应关系,直观呈现网络动态变化。构建字符串长度识别模型、二级域名可信性过滤模型、IP离散性验证模型以及异常入侵数据阻断模型,利用改进差分进化适应度函数对正常访问流量与异常攻击流量进行数据划分,由此实现入侵识别。经实验验证,所提识别算法各项评估指标均高于其他算法,准确率提高10%左右,具有较强的入侵识别能力。

  关键词:改进差分算法;网络攻击;持续性变量;异常入侵流量;入侵识别

  论文《基于改进差分算法的网络异常攻击流量入侵识别方法》发表在《信息技术》,版权归《信息技术》所有。本文来自网络平台,仅供参考。

网络数据特征与攻击行为间的对应关系

  0 引言

  随着网络规模的日趋扩大,网络流量类型越发繁多,各类异常攻击流量的隐秘性和危害性也不断增强。准确识别隐藏在多维网络流量中的异常攻击流量,已成为网络安全防御领域研究的热点。

  文献[1]提出一种内卷积与外卷积融合的网络异常流量入侵检测识别方法,通过单维卷积网络提取被采集数据流量特征,建立通信流图和网络流图捕捉流量交互信息,利用同质图卷积网络计算流图嵌入向量,最终通过分类结果对网络入侵进行识别。但是这种方法无法深入分析流量特征与入侵行为之间的对应关系,识别效果较差。

  文献[2]利用深度自编码模型挖掘网络流量潜在特征,通过减少隐含层神经因子数量对流量特征进行分类,结合信念网络与自编码网络完成数据预处理,利用降低噪声干扰提高模型检测性能。然而该方法在流量数据特征提取过程中存在一定误差,难以对正常流量与异常攻击流量进行精准划分,导致入侵识别结果精准度不高。

  针对以上研究存在的不足,本文提出一种基于改进差分算法的网络异常攻击流量入侵识别方法,在差分进化算法的基础上加入自适应因子,精准提取流量特征,分析网络流量数据属性与攻击特征的对应关系,构建多个异常流量识别模型,从而实现网络异常攻击流量入侵的精准识别。

  1 改进差分算法原理与入侵行为特征分析

  1.1 差分进化算法运算原理

  常规的差分进化算法是一种由群集个体之间的协作和竞争所衍生出来的智能全局寻优算法,通过交叉和变异等步骤来完成群集的进化。群集内流量因子间的差异会随着更新次数的增长越发明显,导致算法出现局部最优的情况。因此,本文在差分算法的基础上引入自适应因子,以提高流量特征提取的精准性。具体步骤如下:

  ①初始化:在维度空间E中生成大小为$N_p$的初始特征群集,最大迭代次数为H,则初始化过程可以表示为:

  $$S_{x, H}=left[s_{x 1, H}, s_{x 2, H}, cdots, s_{x E, H} ight]^T$$

  式中,$S_{x, H}$表示第H代特征群集中的第x个流量因子。

  ②变异:变异过程是改进差分算法的重要步骤,其表达方式为:

  $$V_{x, H}=S_{x, H}+Gleft(s_{x 1, H}-s_{x 2, H} ight)$$

  式中,$V_{x, H}$为第x个变异流量因子,$s_{x 1, H}$和$s_{x 2, H}$是父代中不同于$S_{x, H}$的两个随机变异流量因子,G表示变异系数,其中$s_{x 1, H}$不等于$s_{x 2, H}$。

  ③交叉:交叉操作的目的是扩大特征群集的多样性,可以表示为:

  $$U_{i j, H+1}= egin{cases}V_{i j, H}, & ext { rand } leq K_{c x}, j= ext { rand } \ S_{i j, H}, & ext { 其他 }end{cases}$$

  式中,$U_{i j, H+1}$表示交叉流量因子,$K_c$为交叉系数,为0~1当中的任意数;j是在$1,2, cdots, H$之中的任意整数。

  ④选择:差分进化算法由于变异和交叉系数固定不变令算法难以达到最优值,造成全局搜索能力不佳,在此引入自适应函数e,在父代与子代特征群集中比较目标流量因子的适应度值来选择最优个体。表达式为:

  $$S_{x, H+1}= egin{cases}S_{x, H}, & eleft(S_{x, H} ight)

  式中,$e(cdot)$表示适应度数值,$S_{x, H+1}$作为父代与子代当中最小的适应度值,流量因子进行下一步更新和进化直至满足终止条件,将适应度值最小的流量因子作为最优流量特征输出最优进化结果。

  1.2 网络异常攻击流量入侵行为特征分析

  网络异常攻击检测以网络流量的特征变化为基础,本文通过分析各项网络流量特征与入侵攻击行为间的对应关系,来实现异常流量入侵检测。网络数据特征与攻击行为间的对应关系,如图1所示。

  根据上述网络流量数据特征与攻击行为间的对应关系,提取10组能够反映异常攻击流量入侵操作的数据流量属性,如表1所示。

  表1 数据特征属性

  | 流量属性 | 属性描述 |

  | request_num | 单位时段请求数据 |

  | response_num | 单位时段恢复数据 |

  | bytes | 单位时段网络流量规模 |

  | syn_num | 同步序列编号数量 |

  | tcp_num | 传输控制协议数量 |

  | time_pacp | 数据块时间戳 |

  | login_fail | 登录失败频次 |

  | icmp_num | ICMP协议数量 |

  | ip_num | 单位时段IP数量 |

  | port_num | 访问端口次数 |

  表1中的网络数据流量属性可以从多个方面呈现网络动态变化。在网络处于正常模式时,这些数据数量会维持在一个正常范围之内,在网络遭受异常攻击流量入侵时,这些数据特征指标会超出合理范围。例如在遭受拒绝服务入侵时,syn与bytes数据流量特征会快速增长超过合理指标,当遭受试探性入侵时,攻击方会频繁地遍历各个网络设备端口,从中搜索漏洞,这些行为由IP数量和访问端口次数等数值体现。攻击者会远程入侵本地终端设备,破解登入身份认证信息,在破解过程中,登入IP数量和登录失败频次等数据特征会产生大量动态变化。

  通过改进差分算法提高数据流量特征提取的精准性,分析网络流量特征与入侵攻击行为之间的对应关系,为异常攻击流量入侵识别提供数据基础。

  2 网络异常攻击流量入侵行为相关性判定及识别方法

  2.1 网络异常攻击流量入侵行为相关性判定

  面对复杂且庞大的网络流量数据,在特征提取过程中容易出现过度匹配的情况。以上述10项网络流量作为特征属性样本,由于大部分正常访问流量的特征为持续性,攻击入侵流量的特征为离散性,所以针对流量变量不同属性之间的差别进行分析,判定各个变量之间的相关性。其表达方式为:

  $$egin{aligned} gamma^2 & =frac{D_t-D_a}{D_t} \ & =frac{sum(W-overline{W})-sumleft(W-overline{W}_i ight)^2}{sumleft(W-overline{W}_i ight)^2} quad(5) end{aligned}$$

  式中,$gamma^2$反映了持续性流量变量和离散性流量变量值之间的关联程度,$overline{W}$代表全部流量变量的平均值;$overline{W}_i$代表所有属性i中全部流量变量的平均值;$D_t$代表持续性变量值平均方差总和,$D_a$代表不同流量属性对应的同一类变量方差,$D_a$的值越小,证明该流量变量的相近程度越大,即与此持续性变量之间的相关程度越高。通常$gamma^2$的大小在0~1之间,当$gamma^2$为0时代表两类流量变量完全无关,当$gamma^2$为1时代表两类流量变量之间存在极大的相关性,即$gamma^2$值越大相关程度越高。利用$gamma^2$判定数据流量之间的相关性,以相关程度将特征属性降序排列至属性集中,属性提取流程如图2所示。

  利用此样本集进行测试训练,输出计算结果,提取能够使模型更为准确的属性集构建入侵识别模型。

  2.2 网络异常攻击流量入侵识别方法

  正常流量与异常攻击入侵流量存在特征区别,考虑到内嵌式字段内容的保密性,需要对传输信息进行编程,这一过程相比于正常流量必然会产生差别,为此,需构建以下模型来完成异常流量数据的检测,由此作为网络异常攻击流量入侵的识别标准。根据提出的改进差分进化算法构建异常流量检测模型,对异常攻击流量进行识别。

  2.2.1 字符串长度识别模型

  字符串长度代表子域间相匹配的字符个数,设n为第n组相同字符共m组,count为该组的字符数,lengthall为子域$S_1$和子域$S_2$中相匹配的所有字符个数,计算公式为:

  $$length\_all =sum_{n=0}^{m}left[operatorname{same}_nleft(s_1, s_2 ight) ight] quad(6)$$

  式中,m字符个数最多,计算公式为:

  $$length\_max =max left{operatorname{count}left[operatorname{same}left(s_1, s_2 ight) ight] ight} quad(7)$$

  网络系统在遭受异常数据入侵时必然会频繁发送请求,为了确保攻击强度不被减弱,攻击行为产生的异常流量变化是无法避免的。

  2.2.2 二级域名可信性过滤模型

  为了确保网络入侵识别的准确性,本文对二级域名可信性进行分析,这一类域名通常储存大量保密数据,除非一级域名被成功入侵,否则通常情况下不会存在不良行为,因此可将可信性较高的二级域名添加至置信名单。

  构建二级域名可信度过滤模型为:

  $$C_{s l d}=min left[Lleft(s_1, s_2 ight) ight] quad(8)$$

  式中,C表示二级域名的虚假性;L表示子域$S_1$与$S_2$中字符串的编辑距离,根据L的大小来判定二级域名虚假性,L值越小说明该域名的可信性程度越高。

  2.2.3 IP离散性验证模型

  攻击方为了提高攻击的隐秘性,通常会减少异常入侵流量与正常访问流量的差别,一般会采取服务器对异常域名的响应手段。本文通过采集到的实际攻击程序流量数据反映了这一情况。正常访问流量对应的IP响应地址通常存在较高的离散性:

  $$D S_{s l d}=frac{I P_{s l d} * sum_{m=0, n=1}^{m, m+1} a b sleft(e_m-e_n ight)}{s_{s l d} * s_{s l d}} quad(9)$$

  式中,$IP_{sid}$表示单位时段范围内二级域名包含的所有IP个数,$sum_{m=0, n=1}^{m, m+1} a b sleft(e_m-e_n ight)$代表二级域名IP响应地址中的位差值总和,$DS_{sid}$表示IP增长数平均值,其大小代表IP地址的离散程度。

  2.2.4 异常入侵数据阻断模型

  在对入侵数据流量识别之前,首先要进行数据预处理操作,利用域名探针文件采集流量数据,通过二级域名可信性过滤模型设置置信名单,提高识别速度,而后将待识别特征属性向量通过恶意入侵数据阻断模型进行识别,并输入识别结果,设时间窗k为λ,即有:

  $$P_{h_{max }}=left{log s_k mid k_{ ext {now }}-lambda leq k

  式中,$Logs$表示时间窗内的域名系统事件日志,$P_{h_{now}}$表示当下时间窗包含的域名系统数据块。

  根据以上公式识别数据块属性,利用改进差分进化算法中的适应度函数e分析待识别流量数据属性,输出结果为:

  $$eleft(P_{i_{ ext {now }}} ight)= egin{cases}0, & ext { 正常 } \ 1, & ext { 异常 }end{cases}$$

  通过改进差分进化算法构建上述模型进行入侵检测,数值为0时识别为一般流量属性,数值为1时识别为异常流量属性,根据流量属性划分结果对异常入侵流量实施进一步操作。

  3 实验

  3.1 实验参数

  为了验证本文所提方法的识别性能设定本次实验,实验操作系统采用Windows10旗舰版,搭建Intel core i5-9300H高效处理器,内存为32GB。采用公开网络数据库NSL_KDD作为实验数据样本,共5组流量属性,其中包含一种正常流量属性。NSL_KDD数据库在KDD99版本基础上改善了数据重复和数据不平衡等缺陷,使实验结果更具可信度。训练样本采用数据库中KDDTrain+数据,实验测试样本采用KDDTest+数据,实验数据样本分布如表2所示。

  表2 实验数据样本分布

  | 流量属性 | 训练样本/个 | 测试样本/个 |

  | Normal | 67343 | 9711 |

  | R2L | 995 | 2754 |

  | Probe | 11656 | 2421 |

  | DOS | 45927 | 7458 |

  | U2R | 52 | 200 |

  3.2 评价指标

  以下列评价指标检测算法性能,其中准确率代表所有识别正确的正负测试样本在全部样本中的占比,可以表示为:

  $$A=frac{T P+T N}{T P+F P+T N+F N} quad(12)$$

  精准率反映了准确识别的概率,具体是指实际正样本在被识别为正样本中的占比,表达公式为:

  $$P=frac{T P}{T P+F P} quad(13)$$

  召回率代表实际正样本中被正确识别的正样本的占比,该数值反映了模型对实际相关目标的识别能力,可以表示为:

  $$R=frac{T P}{T P+F N} quad(14)$$

  F1-SCORE分数值的大小反映了P值与R值的综合能力,计算公式为:

  $$F 1=frac{2 P R}{P+R} quad(15)$$

  在式中,$TP$表示被识别为正类且实际为正的样本数;$TN$表示被识别为负类且实际为负的样本数;$FP$表示被识别为正类且实际为负的样本数;$FN$表示被识别为负类但实际为正的样本数。

  针对以上评价指标,选用内外卷积网络(文献1)方法、深度自编码网络(文献2)方法及其他常用的入侵检测识别算法与本文算法进行二分类和多分类特征对比实验,对比结果如图3-4所示。

  由图3-4可知,本文所提方法各项评估指标都高于其他算法,在二类特征对比中,准确率为98.56%,相比于准确率第二的HMM(隐马尔可夫模型)算法,提高了8.56%。在特征五分类对比情况中,本文所提方法准确率为97.56%,比SVM算法提高8.82%,由此可以证明本文方法相比于传统流量入侵识别方法更具可靠性。

  4 结束语

  本文提出一种基于改进差分算法的网络异常攻击流量入侵识别方法,经过深入研究得出如下结论:通过初始化、交叉、变异和选择步骤提取最优流量因子,采用改进差分进化算法提高流量特征选取能力。分析网络流量数据属性与攻击特征间的对应关系,直观呈现网络动态变化,为异常攻击流量入侵识别提供数据基础。计算持续性变量与离散性变量之间的流量属性偏差,判定正常流量特征与攻击入侵流量特征的相关程度。利用改进差分进化算法构建多个检测模型,根据检测结果对异常流量入侵进行识别。

  综上所述,本文所提方法各项评价指标与传统算法相比均存在一定优势,适用于实际网络安全防护领域,未来研究将进一步优化算法运行速度,提高检测效率。

  参考文献

  [1] 王艺霏,莫爽,吴文睿,等.基于内外卷积网络的网络入侵检测[J].北京邮电大学学报,2021,44(5):94-100.

  [2] 孙子文,金浩.深度自编码网络的集成学习ICPS入侵检测模型[J].信息与控制,2021,50(5):591-601.

  [3] 李伟,孙亚峰,黄颖,等.基于容忍度的网络拓扑自适应差分进化算法[J].计算机集成制造系统,2022,28(11):3479-3493.

  [4] 许美玲,王依雯.基于改进差分进化和回声状态网络的时间序列预测研究[J].自动化学报,2021,47(7):1589-1597.

  [5] 曹扬晨,朱国胜,孙文和,等.未知网络攻击识别关键技术研究[J].计算机科学,2022,49(S01):581-587.

  [6] 王春东,刘懿铭,叶欣.基于入侵检测的网络安全态势评估技术[J].南开大学学报:自然科学版,2021,54(5):36-41.

  [7] 邹福泰,俞汤达,许文亮.基于隐马尔可夫模型的加密恶意流量检测[J].软件学报,2022,33(7):2683-2698.

  [8] 孟伟东,毕方明.基于网络流量特征和自适应匹配追踪的DDoS检测[J].西南师范大学学报:自然科学版,2021,46(7):90-96.

  [9] 田桂丰,单志龙,廖祝华,等.基于空间降维和多核支持向量机的网络入侵检测[J].济南大学学报:自然科学版,2021,35(4):365-369,375.

  [10] 刘广睿,张伟哲,李欣洁.基于边缘样本的智能网络入侵检测系统数据污染防御方法[J].计算机研究与发展,2022,59(10):2348-2361.

  [11] 张曼.混合多层结构化网络攻击态势预测算法仿真[J].计算机仿真,2021,38(3):487-491.

  [12] 焦文欢,冯兴杰.一种改进的字符串匹配模型研究[J].计算机仿真,2022,39(3):319-324.

  [13] 赵凡,赵宏,常兆斌.基于迁移学习的小样本恶意域名检测[J].计算机工程与设计,2022,43(12):3381-3387.

  [14] 刘云,肖添.IP黑名单关联聚类算法对恶意簇检测的优化研究[J].四川大学学报:自然科学版,2021,58(1):91-98.

  [15] 徐礼金,贺艳芳.基于随机森林算法的无线传感器网络攻击流量阻断模型构建[J].计算机工程与科学,2022,44(5):819-825.

期刊 论文 出书
国内外/中英文/全学科 学术服务
相关阅读