1. 编程:精通python,能熟练运用常用模块(numpy,matlibplot,pandas,sklearn、request等)完成项目中对数据的爬取、清洗、分析及可视化等功能;
2. 数据可视化:熟悉Excel、Power BI等分析工具的使用;
3. 统计学:熟悉描述统计、推断统计及假设检验、方差分析等,熟悉机器学习,了解线性回归、决策树、KNN、朴素贝叶斯等的原理及运用,熟悉SPSS统计软件及SPSS Modeler软件的基本应用;
4. 数据库:熟悉sql语句;了解hadoop集群、hive。
1.共享单车骑行分析
· 对不同维度的数据(骑行轨迹、单车停放点、环境数据、人流量等)进行清洗、转换等操作后,利用python进行后续数据分析及可视化;
· 最终可以通过分析结果中各类指标了解其车辆运营情况,并能够在高峰时段,进行合理调度,以便使热门站点的车辆达到供求平衡。
2.国际邮轮客户需求分析
· 获取国外网站某邮轮公开数据,并对获取数据进行清洗;
· 分析各字段与目标字段的相关,及多字段间的交互作用;并对训练数据建立模型,同时使用测试集数据测试模型准确性;
3.国内数据分析师岗位分析
· 获取某招聘平台数据分析师岗位信息,来分析哪些因素会让求职者有更大机会被录取;
· 清洗数据,包括数据类型的转换、创建新字段,删除无用字段等;
· 使用最终字段建立模型,并使用公司内部数据进行测试;