项目研究目标:
本项目旨在开发出使用机器学习技术的恶意网址识别产品。
项目研究内容:
利用包含大量恶意URL网址的数据集,对建立的机器学习模型进行训练。将待检测的新URL输入到训练好的模型中,输出鉴别结果,判断是否为恶意URL。
解决的关键问题:
(1)数据分析与特征工程
我们所拥有的源数据是大量的恶意URL网址,这些网址不能直接代入到模型中进行训练。需要考虑从网址的黑名单特征、词法特征、host特征、基于上下文和流行度的特征、内容特征等多方面进行特征提取,这涉及到一个特征选取和数据处理的过程。这个过程尤为重要,因为特征能否准确展现URL的特点极大地影响着模型的训练效果和判断精度。
(2)模型选取方案
能够解决该问题的机器学习模型种类较多,如何选取效果最好的模型来帮助得到较高的准确率。考虑了一些经典的机器学习模型如XGBoost、LightGBM、CatBoost。
(3)异构特征统一表示
特征工程之后,由于得到的是一批手工提取的特征,需要将这些特征进行编码,才能输入到机器学习模型中。或者也可以采取直接将整个URL进行embedding的方式编成一个数字向量。综合测试了两种方法。