Data preprocess

Hjsz - 2021-7-2
发布于:2021-7-2|最后更新: 2023-6-28|
type
status
date
slug
summary
tags
category
icon
password
文章来源说明
notion image
notion image

Session Construction

  • TCP、UDP 和 ICMP 数据包首先分别用于构建会话。 TCP、UDP和ICMP会话分别由五元组定义,称为会话ID,可以标识唯一的会话。会话ID与记录一一对应。具体来说,TCP会话ID和UDP会话ID一样,由协议类型、IP源地址、IP目的地址、源端口和目的端口组成。同样,ICMP会话ID由协议类型、IP源地址、IP目的地址、ICMP类型和ICMP代码组成。每个会话内应用层的有效负载是单独加入。

Record Construction

  • 特征的维度由上表可知为1000维,前十七个位置保留用于数据包header的特征。剩下的983个为payload。少于1000补0,前17维没有的也用0填充,多余的payload切掉。
  • 协议类型表示为100 010 001,TCP UDP ICMP,占前三个位置
  • 消除源IP和目的IP的影响。
  • interval_mean、interval_varience:计算会话中数据包的时间间隔,并将其均值和方差值作为记录的时间特征。
  • tcp_flag中包含:FIN, SYN, RST, PSH, ACK, URG, ECE, CWR。这是会话的特征,所以比如此会话中有10个SYN标志位1,则Record数据集中此Session的Record SYN = 10。

Normalization

  • payload中应该都是十六进制字符,所以为0-255之间,将其除255转换到0-1之间。
  • 对于一些我们无法知道范围的特征,这里用最小最大标准化进行。
    Datacon2020 恶意流量检测cves