熟悉
Python(常用语言)、SQL Sever
数据挖掘基本算法(朴素贝叶斯、K-means、Apriori、KNN等)
Scrapy框架,IP池,匿名代理等反爬虫技术
了解
Matlab、C、SPSS
决策树、随机森林、支持向量机等机器学习算法
1、
交通事故成因分析竞赛(Data Castle平台竞赛)
•赛题提供了交通事故相关多维度数据,通过数据进行深度挖掘形成交通事故成因分析方案
•赛题难点:需要数据信息缺失严重,特征不全面,去除多余的噪音数据和噪音因素
•大体流程:对数据集中每个属性进行分析,利用信息增益和层次分析法得到各个因素对交通事故的影响权重;利用聚类算法对数据某些属性进行聚类,得到范围性对影响因素;最后利用Apriori算法关联不同的影响因素得到交通事故在不同影响因素下的关联影响程度。
•涉及技术:层次分析法(AHP)、信息增益、Apriori算法、朴素贝叶斯、K-Means
2、
主要负责爬取外卖订餐平台商品相关数据,通过IP池,匿名代理等应对一些网站的反爬