猿急送>

广州运营/编辑兼职程序员

ID：188620

古戈尔

大数据挖掘

公司信息：
神州数码

工作经验：
2年

兼职日薪：
500元/8小时

兼职时间：
周六
周日

所在区域：
广州
天河

技术能力

是对数据挖掘结果的表示方式。一般只是指数据可视化工具，包含报表工具和商业智能分析产品（BI）的统称。譬如通过Yonghong Z-Suite等工具进行数据的展现，分析，钻取，将数据挖掘的分析结果更形象，深刻的展现出来。

数据挖掘十大经典算法

1。C4.5：是机器学习算法中的一种分类决策树算法，其核心算法是ID3算法。

2. K-means算法：是一种聚类算法。

3.SVM：一种监督式学习的方法，广泛运用于统计分类以及回归分析中

4.Apriori ：是一种最有影响的挖掘布尔关联规则频繁项集的算法。

5.EM：最大期望值法。

6.pagerank：是google算法的重要内容。

7. Adaboost:是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来，构成一个更强的最终分类器。

8.KNN:是一个理论上比较成熟的的方法，也是最简单的机器学习方法之一。

9.Naive Bayes：在众多分类方法中，应用最广泛的有决策树模型和朴素贝叶斯（Naive Bayes）

10.Cart：分类与回归树，在分类树下面有两个关键的思想，第一个是关于递归地划分自变量空间的想法，第二个是用验证数据进行减枝。

项目经验

在spark中要运算某些算，一般的做法是，把算法上传到spark服务器中，然后通过脚本来触发运行，这样的方式在我们的项目应用中，是可行的，但这样的方式是封闭式的，不能让第三方系统触发运行，基本上都能够通过手动触发运行，或者给算法加上一个定时器外壳，定时去执行XX算法，基于这的特性不方便和我们的业务系统集成。
所以提出了算法运行服务器的需求，这个主要解决了，算法可随时被业务系统触发，也可以向业务系统返回执行结果等。

案例展示

存放和清洗数据

抓取相关类型与需要的数据，通过运行服务器里面进行数据清洗模块，与数据服务器进行连接，再到数据挖掘模块，然后就可以实现与进行数据的挖掘了
算法运行服务器

算法运行服务器启动时，会启动一个socket监听器，业务服务器要调用某个算法时，会往这个监听器发送一个调用请求，然后监听器接收到调用请求后，调用具体的算法（可能是数据清洗的算法，也可以是数据挖掘等的算法）运算，然后算法运行完毕后，会将运行的结果，返回给业务调用端。
算法运行服务器

算法运行服务器启动时，会启动一个socket监听器，业务服务器要调用某个算法时，会往这个监听器发送一个调用请求，然后监听器接收到调用请求后，调用具体的算法（可能是数据清洗的算法，也可以是数据挖掘等的算法）运算，然后算法运行完毕后，会将运行的结果，返回给业务调用端。