某工业场景下的异常检测

猿急送>西安兼职程序员>田海滨>

案例列表

基本信息

案例ID：140399

技术顾问：田海滨 - 1年经验 - 某北京旅游网站

联系沟通

微信扫码，建群沟通

项目名称：某工业场景下的异常检测

所属行业：人工智能 - 其他

->查看更多案例

案例介绍

异常点检测的目的是找出数据集中和大多数数据不同的数据，常用的异常点检测算法有以下几类：

　　　　第一类是基于统计学的方法来处理异常数据，这种方法一般会构建一个概率分布模型，并计算对象符合该模型的概率，把具有低概率的对象视为异常点。比如特征工程中的RobustScaler方法，在做数据特征值缩放的时候，它会利用数据特征的分位数分布，将数据根据分位数划分为多段，只取中间段来做缩放，比如只取25%分位数到75%分位数的数据做缩放。这样减小了异常数据的影响。

　　　　第二类是基于聚类的方法来做异常点检测。这个很好理解，由于大部分聚类算法是基于数据特征的分布来做的，通常如果我们聚类后发现某些聚类簇的数据样本量比其他簇少很多，而且这个簇里数据的特征均值分布之类的值和其他簇也差异很大，这些簇里的样本点大部分时候都是异常点。比如BIRCH聚类算法原理和DBSCAN密度聚类算法都可以在聚类的同时做异常点的检测。

　　　　第三类是基于专门的异常点检测算法来做。这些算法不像聚类算法，检测异常点只是一个赠品，它们的目的就是专门检测异常点的，这类算法的代表是One Class SVM和Isolation Forest.