1、统计学专业硕士,深刻理解并熟练掌握网站数据分析方法;
2、对数据驱动业务有深入理解,对数据与业务方面有足够的敏感性,有较强的逻辑分析能力和独立思考能力;
3、具备良好的沟通能力、团队合作精神及抗压能力,能独立高效完成复杂分析项目;
4、有一定的大数据处理能力,能熟练运用ORACLE/MY SQL等获取分析所需数据
5、有一年以上使用SQL及python等脚本语言数据处理经验;
天猫用户重复购买行为预测项目:此项目数据量大且大部分特征被单令给出,首先用Python中的pandas模块的块读取功能和联结功能对大数据集处理,并对异常值和缺失值筛选和修正。其次依据RMF模型,利用datetime模块、numpy模块、scipy模块和collections模块,对用户特征、店铺特征、用户-店铺特征进行提取,再利用反向特征消除法降维从而得到有效的特征。之后导入sklearn模块,使用tensorflow2.0搭建xgboost网络、lightgbm网络、catboost网络,将有效特征分别输入搭建好的网络并利用交叉验证法进行训练,得到初步的准确性为0.7557,0.7627,0.7732。在准确度不满足预期情况下使用逻辑回归二分类法将三者融合形成增强模型,并利用贝叶斯调参法优化模型,最终得到的准确度优于之前模型,其准确度是0.8472。此外,可据RMF模型中R值和F值对天猫用户进行细分,利用Python中的matplotlib模块将其可视化,针对不同用户制定不同营销策略,促进平台的重复购买率。