1. 专业主修课程:统计学、多元统计分析、数学建模教程、计量经济学、数学分析
2. 熟悉特征提取、特征工程(特征分箱,WOE编码,特征选择,特征降维,交叉特征)等工作;
3. 熟悉数据分析编程语言:python(pandas、numpy、sklearn、re、scipy、matplotlib);R语言;spark;熟悉Linux环境;
4. 熟悉数据分析过程相关的数据库语言:mysql,hive;
5. 主要熟悉常用的算法模型:聚类(k-means聚类),分类(决策树,逻辑回归),关联规则(Apriori),离群点检测,Lookalike(标签传播)、自然语言处理(词法分析,短文本相似度,中文分词,TFIDF算法,word2vec)
OTA在线旅游网站数据分析(自然语言处理,主要工具:python);
航空旅客价值分析(关联规则,聚类分析,主要工具:python,数据库语言)
数据质量分析(主要使用工具:tableau,python)
用户画像标签(主要使用工具:python,hive)