1. 熟练掌握Python语言。
2. 精通Excel各种基本函数,如聚合函数、vlookup、match、offset、index等查找引用函数。熟练运用数据透视表、powerquery、powerBI。对数据进行处理并得到想要的结果,如杜邦分析仪等。
3. 熟练掌握基于python的爬虫技术。熟练掌握request、urllib、xpath、BS4、scrapy框架,了解srapy-redis框架。能够爬取大部分网站的内容,如文本、图片及视频等。
4. 熟悉机器学习相关算法如:KNN,Linear Regression,LR,决策树,随机森林,SVM,聚类算法K-mean等。
5. 了解深度学习框架如:CNN,Keras,Tensorflow等。
6. 数据清洗及可视化方面。精通numpy、pandas、matplotlib,熟练掌握pyecharts、tableau、excel等可视化工具。使用numpy,pandas对数据进行去重、查缺补漏、并提取所需数据,如同比、环比等。利用可视化工具画出趋势图,饼图,区域图等。
7. 基于清洗后的数据得出总结报告。
项目名称:爬取热门图书销量和热度进行有声书推荐
项目简介:对网络上的热门书籍的数据进行爬取,并分析热门书籍的销量数据。给业务部的决策提供数据支持。
项目职责:爬取某些网站首页的书籍的数据,并对数据进行可视化分析。
技术要点:
1. 利用scrapy爬虫框架,进行数据爬取热销的书单,销售量,售价等数据100000条
2. 利用Numpy,Pandas对数据进行清洗
3. 使用groupby函数分组统计每一类图书的数目,平均单价和销售量
4. 使用matplotlib可视化展示数目与类目的关系
5. 对平均单价进行分箱处理
6. 统计不同区间数据的销量关系,并进行可视化展示
7. 完成数据分析报告的撰写
本人主要负责对收集到的数据进行数据处理及可视化分析。 1.使用pandas、numpy对数据进行去重、查缺补漏、数据类型转换、提取所需要的字段,如坐标位置。 2.使用pyecharts进行可视化分析,画出能突出数据特点的图表。 3.对数据及可视化内容进行总结。
本人负责内容主要为数据清洗及数据可视化分析。 使用numpy、pandas进行数据去重、查缺补漏、数据类型转换及提取各年份各类型电影票房等字段。将数据导入mysql数据库中。使用matplotlib对数据进行可视化分析并总结成PPT。