Web攻击检测机器学习深度实践

发布时间：2019-06-25 23:12:22 所属栏目：建站来源：月亮与六便士

导读：副标题#e# 一、概述 1. 传统WAF的痛点传统的WAF，依赖规则和黑白名单的方式来进行Web攻击检测。该方式过分依赖安全人员的知识广度，针对未知攻击类型无可奈何;另一方面即使是已知的攻击类型，由于正则表达式天生的局限性，以及shell、php等语言极其灵活的

随机森林：

Web攻击检测机器学习深度实践

逻辑回归：

Web攻击检测机器学习深度实践

MLP模型：

Web攻击检测机器学习深度实践

3. 小结

缺点：

需要对模型反复校验，优化提取特征转换规则;
对未知攻击类型识别效果差;
对变形攻击识别无效;
没有学习到关键词的时序信息。

对于常见的shell了命令cat来说，如果用shell的语法去理解，cat c’a't c”’a”’t ””c’a’t””都是一回事。这里分词的MLP模型能理解cat，但对变形的c’a't这些无法理解(分词破坏信息)。

优点：

相对深度学习来说具有更高效的预测效率;
相对深度学习模型，分布式部署更加便捷，可扩展性强，能适应海量的访问流量;
准确率高，做到对已知类型的完全识别;
可维护性强，只需把漏拦和误拦的请求类型打标后重新投入训练即可。

针对上面的基于关键词特征的MLP模型，可能有人会产生疑问，为什么能取得近似100%的准确率?这是反复调试的结果。笔者在做特征向量转换之前对url请求做了大量泛化和清洗的工作，也用到了正则。前期针对识别误判的请求，会通过调整词袋向量维度和url清洗方式，充分挖掘出正负样本的区别特征，之后再进行向量转换，从而尽量保证输入给模型的训练样本是没有歧义的。在模型上线期间，针对每日产生的误判类型，会在调整特征提取后，作为正样本重新投入训练集并更新模型。通过一点一滴的积累，让模型越来越完善。

四、识别变形和未知攻击的LSTM模型

（编辑：衢州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/7

首页

尾页