type
status
date
slug
summary
tags
category
icon
password
文章来源说明
🤔 Datacon 2020 恶意流量检测
数据预处理
随机森林
- 开始的时候会遇到数据量太大,python被kill,后来只随机选取200个pcap文件进行包长特征提取
- 0.78左右的准确率
MLP
- 继续用之前的数据集
- 开始还好奇为什么每一轮的准确率都是0.798,但是loss在下降,后来输出具体的output才知道,预测直接都输出0.所以每一轮的预测肯定直接是0的占比,这也表明black的占比比较多,数据集不合理,改一下

- 精度大概在0.755左右,此时的数据集white和black大概是1:1
基于流特征
- cmd = 'tshark -r {pcap} -q -z conv,tcp’ 运行上面的命令会有下面的输出样例

- 上面是数据包的元数据,还可以根据TLS/SSL握手包特征,从pcap流量中分析可以得知,black和white存在不同的协议类型和协议版本,所以也将协议版本作为一个特征,可能不是数字,这里为了可以让模型进行处理,进行one-hot热编码。
- 结果

🤗总结归纳
参考文章
- 一些流量检测的paper
LSTM
致谢:
有关Notion安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~