Datacon2020 恶意流量检测

Hjsz - 2021-7-2 / Day by day
发布于:2021-7-2|最后更新: 2023-5-20|
type
status
date
slug
summary
tags
category
icon
password
文章来源说明

🤔 Datacon 2020 恶意流量检测

 

数据预处理

 

随机森林

  • 开始的时候会遇到数据量太大,python被kill,后来只随机选取200个pcap文件进行包长特征提取
  • 0.78左右的准确率

MLP

  • 继续用之前的数据集
  • 开始还好奇为什么每一轮的准确率都是0.798,但是loss在下降,后来输出具体的output才知道,预测直接都输出0.所以每一轮的预测肯定直接是0的占比,这也表明black的占比比较多,数据集不合理,改一下
    • notion image
  • 精度大概在0.755左右,此时的数据集white和black大概是1:1

    基于流特征

    • cmd = 'tshark -r {pcap} -q -z conv,tcp’ 运行上面的命令会有下面的输出样例
    notion image
    • 上面是数据包的元数据,还可以根据TLS/SSL握手包特征,从pcap流量中分析可以得知,black和white存在不同的协议类型和协议版本,所以也将协议版本作为一个特征,可能不是数字,这里为了可以让模型进行处理,进行one-hot热编码。
    • 结果
    notion image

    🤗总结归纳

     

    参考文章

    • 一些流量检测的paper

    LSTM

     
    致谢:
    💡
    有关Notion安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~
     
     
    AURORA: Statistical Crash Analysis for Automated Root Cause ExplanatiAURORA: Statistical Crash Analysis for Automated Root Cause ExplanationData preprocess