VulnerGAN: a backdoor attack through vulnerability amplification against machine learning-based network intrusion detection systems

Hjsz - 2023-7-12 / 论文
发布于:2023-7-12|最后更新: 2023-7-12|
type
status
date
slug
summary
tags
category
icon
password
SCIENCE CHINA Information Sciences 哈工大

Summary

  • 针对基于ML的IDS的数据中毒和后门攻击,并提出了基于GAN的数据中毒和对抗样本攻击。
  • 先通过模型提取技术获取一个shadow model,然后用攻击数据测通过“fuzz”shadow,建立一个VulDataset(未识别成功的各种攻击行为),用来指导GAN。其实总体上看,方法上并没有太大的创新,更像是针对于数值数据的对抗生成,而没有考虑到这是真实的流量数据。
  • 用两个GAN结构,将数据中毒和对抗样本结合,达到更隐蔽,更有效的攻击。
  • 利用的数据集是IDS2017,有多种攻击类型。
  • VulGAN大体结构
notion image
notion image

Method

Black-box model extraction

  • 简单来说就是让shadow模型针对一样输入的情况下的输出尽可能接近origin模型,就是用origin model的输入输出训练shadow 模型
  • 从实验结果上看,用DNN的模型提取其他模型的效果比较好。
notion image

Fuzzing test

  • 模糊测试旨在获取目标模型的漏洞并帮助GAN计算中毒和对抗样本。
  • 因为ML-IDS 肯定不会到100%肯定会有分类错误的情况。所以利用“fuzz”找到那些被错误分类的数据,这些数据肯定就是在分类边界的。

GAN

  • 通过先验知识(是不是就是之前那些;Vulset),提高了收敛速度和对抗样本的生成速度。
  • VulnerGAN中的生成器G是基于模型漏洞进行训练的,其目标是生成与漏洞类似的中毒或对抗样本。 VulnerGAN中的判别器D专门用于区分生成器G生成的易受攻击的样本和中毒/对抗样本。

GAN-A

  • GANA使用valdataset,生成与其中数据类似的样本作为中毒样本。其中使用了隐蔽性过滤器,目的向隐蔽性方向走。
  • 将GAN-A生成的中毒数据喂给模型,会让其产生一些隐蔽性高的“后门”,供GAN-B的对抗样本利用。

GAN-B

  • VulnerGAN-B利用现有的攻击后门(GAN-A通过中毒数据产生的“后门”)在预测样本空间中生成可以通过后门绕过模型检测的对抗样本。什么是现有的攻击后门。
  • 使用了攻击效果过滤器,目的向攻击性方向走。

Attack process

  • VulnerGAN后门攻击流程及原理:
1. 收集流量
2. 生成shadow dataset
3. 利用恶意流量和其输出生成Vul dataset
4. 使用shadow dataset产生shadow model
5. 使用VulnerGAN-A和VulnerGAN-B将攻击流量转换为中毒样本和对抗样本。
6. 将中毒样本放入正在运行的在线ML-NIDS中,干扰训练过程,形成特定的攻击后门。
7. 进行攻击

Experiment

  • 攻击原理在数据分布上的体现
    • 从a中可以看出,原来正常的分类边界就存在一些错误。而fuzz就是找出这些错误并指导GAN的生成。b中就是找到的分类错误的中毒样本(Vulset)。c就是接近vul样本的的对抗样本。d图是漏洞放大进行后门攻击的结果,可以看出分类边界出现偏移,将更多恶意流量划分到正常流量。
notion image
  • 这里针对MLP、DNN、RNN、LSTM、GRU五种模型进行了对比实验。
notion image

experiment result

  • 后门攻击和对抗性攻击的比较,测试数据中毒造成的特定后门对攻击成功率的影响.看下面那个图效果很好了。
notion image
  • 与相关工作在隐蔽性、高效性、时间上的比较
notion image
 
FedDef: Robust Federated Learning-based Network Intrusion Detection Systems Against Gradient LeakageLinux