基于机器学习的涉诈网址识别

基本信息

案例ID:215512

技术顾问:陈林 - 1年经验 - 华中科技大学电子信息与通信学院

联系沟通

微信扫码,建群沟通

项目名称:基于机器学习的涉诈网址识别

所属行业:人工智能 - 其他

->查看更多案例

案例介绍

项目研究目标:
本项目旨在开发出使用机器学习技术的恶意网址识别产品。
项目研究内容:
利用包含大量恶意URL网址的数据集,对建立的机器学习模型进行训练。将待检测的新URL输入到训练好的模型中,输出鉴别结果,判断是否为恶意URL。
解决的关键问题:
(1)数据分析与特征工程
我们所拥有的源数据是大量的恶意URL网址,这些网址不能直接代入到模型中进行训练。需要考虑从网址的黑名单特征、词法特征、host特征、基于上下文和流行度的特征、内容特征等多方面进行特征提取,这涉及到一个特征选取和数据处理的过程。这个过程尤为重要,因为特征能否准确展现URL的特点极大地影响着模型的训练效果和判断精度。
(2)模型选取方案
能够解决该问题的机器学习模型种类较多,如何选取效果最好的模型来帮助得到较高的准确率。考虑了一些经典的机器学习模型如XGBoost、LightGBM、CatBoost。
(3)异构特征统一表示
特征工程之后,由于得到的是一批手工提取的特征,需要将这些特征进行编码,才能输入到机器学习模型中。或者也可以采取直接将整个URL进行embedding的方式编成一个数字向量。综合测试了两种方法。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服