Dazzle：使用优化的生成对抗网络来解决安全数据类别不平衡问题

论文标题

Dazzle：使用优化的生成对抗网络来解决安全数据类别不平衡问题

Dazzle: Using Optimized Generative Adversarial Networks to Address Security Data Class Imbalance Issue

论文作者

Shu, Rui, Xia, Tianpei, Williams, Laurie, Menzies, Tim

论文摘要

背景：机器学习技术已被广泛使用，并在许多软件安全任务（例如软件漏洞预测）中表现出了有希望的性能。但是，软件漏洞数据集中的类比率通常高度不平衡（因为观察到的漏洞的百分比通常非常低）。目标：帮助安全从业人员解决软件安全数据类不平衡问题，并进一步帮助使用重新采样的数据集构建更好的预测模型。方法：我们介绍了一种称为Dazzle的方法，该方法是具有梯度惩罚（CWGAN-GP）的有条件的Wasserstein生成对抗网络的优化版本。 Dazzle使用称为贝叶斯优化的新型优化器探索CWGAN-GP的体系结构超参数。我们使用Dazzle来生成少数民族类样本，以重新取消原始的不平衡培训数据集。结果：我们使用三个软件安全数据集（即Moodle脆弱文件，Ambari错误报告和JavaScript功能代码）评估Dazzle。我们表明，Dazzle的使用是实用的，并且证明了与Smote等现有最新的过度采样技术相比（例如，在所有数据集中，Smote的平均提高率平均提高了60％）。结论：基于这项研究，我们建议将优化的gans用作安全漏洞数据类别不平衡问题的替代方法。

Background: Machine learning techniques have been widely used and demonstrate promising performance in many software security tasks such as software vulnerability prediction. However, the class ratio within software vulnerability datasets is often highly imbalanced (since the percentage of observed vulnerability is usually very low). Goal: To help security practitioners address software security data class imbalanced issues and further help build better prediction models with resampled datasets. Method: We introduce an approach called Dazzle which is an optimized version of conditional Wasserstein Generative Adversarial Networks with gradient penalty (cWGAN-GP). Dazzle explores the architecture hyperparameters of cWGAN-GP with a novel optimizer called Bayesian Optimization. We use Dazzle to generate minority class samples to resample the original imbalanced training dataset. Results: We evaluate Dazzle with three software security datasets, i.e., Moodle vulnerable files, Ambari bug reports, and JavaScript function code. We show that Dazzle is practical to use and demonstrates promising improvement over existing state-of-the-art oversampling techniques such as SMOTE (e.g., with an average of about 60% improvement rate over SMOTE in recall among all datasets). Conclusion: Based on this study, we would suggest the use of optimized GANs as an alternative method for security vulnerability data class imbalanced issues.

下载PDF全文

下载文献需遵守相关版权规定

论文标题