1.熟练使用Python语言以及Python常用标准库和第三方库
2.熟练使用 SQL 语句进行查询数据,完成多表连接
3.熟练使用 Numpy、Pandas、Matplotlib、Seaborn,Pyecharts等进行数据清洗、数据分析和可视化
4.熟悉机器学习算法:KNN、岭回归、逻辑回归、决策树、聚类(K-means)、集成学习(随机森林、GBDT)
5.熟悉数据集的基本处理方法(空值处理,数据归一化和标准化)
6.了解Hadoop、Hive、Spark等大数据框架基础及使用,可根据工作需要对其深入
7.掌握数据清洗、模型建立、训练、参数调优流程
一项目名称:RFM会员价值度模型构建
1.数据清洗:对建立不同模型所需的数据做数据清洗工作,如:缺失值处理、异常值检测、特征筛选等;
2.首先使用K-Means算法,对拿到的数据做探索性分析,根据用户特征对用户进行分群操作,对用户有更清晰的认识,为不同的用户群体提供定制化的产品或服务做铺垫;选择用户信息中的五个变量作为分群维度,对五个不同纲量的特征数据做统一缩放处理,使用“肘”方法确定最佳K值;查看分析聚类结果和年龄层次的分布情况,使用silhouette score(轮廓系数),评估模型效果;
二项目名称:各类广告渠道投入产出评估以及销售量预测分析
1.通过相关性数据可视化分析户外广告、电话、短信以及社交平台等营销渠道与销售量之间的关系,可知户外广告和社交平台广告植入与销售量之间是显著正相关,可以继续加大力度以及创新广告内容;
2.选择前3年数据为测试集,后2年数据为验证集,选用XGBoost算法对销售量进行网格搜索查询最优参数,以及获取最优参数模型;
3.其中调优的超参数主要是:max_depth和n_estimators,经过第一次模型训练得到最优参数,并得到各个特征的重要性;接着构建最优参数模型,选择TOP3个特征进行训练,并得到预测结果;通过准确率和MSE进行模型评估;