1、熟练使用Excel中的函数,透视表,可视化等做数据分析;
2、掌握SQL语言,能在MySQL的环境下对数据进行增删改查;
3、掌握python语法,熟练用pandas、numpy、matplotlib进行数据清洗、数据分析和可视化;
4、熟悉爬虫,能用requests进行请求发送、json/re/lxml(xpath)做数据提取及网页解析,selenium做动态网页爬取、会用scrapy框架高效爬取以及数据存取;
5、了解数学、统计学相关知识,spss statistics和modeler的基本使用,以及回归、决策树、聚类、朴素贝叶斯等算法;
6、了解html、css等前端技术,了解linux常用基本命令,linux环境安装使用python,mysql。
1.利用python爬虫爬取旅优网中全部分类的旅游信息(标题名称,链接地址,特点,价格,行程套餐,浏览城市,产品特色,服务承诺),并保存数据至mysql数据库,导出到EXCEL,进行数据分析。
负责内容:1.利用scrapy框架爬取数据,分三层获取详情页信息,并利用xpath匹配获取到需要的数据,获取下一页的链接地址传递数据给当前解析的方法,
2.在item中定义需要获取的数据名称,
3.在settings中设置User-Agent, UA池,在中间件中设置随机获取一个User-Agent,并发起请求,
4.在pipelines中import pymysql,建立连接,在mysql中设置字段名称,类型以及长度,
5.在settings中打开pipelines ,开始爬取数据,并把数据传入mysql进行保存,
6.导出到excel,进行数据清洗(空值、缺失值的处理),利用数据透视表进行数据统计分析(哪些城市的套餐,价格分布,行程时间等),并绘制图形。
5W2H法分析某公司一段时间内的销售数据
项目介绍:
根据从why、what、who、when、where、how much、how几个维度对数据进行分析,发现各产品销售额占比、产品单价与销量的关系、人群分布特征、地区分布、不同时间的销量走势、各产品销售额分布等数据特征。
负责内容:
1.使用python语法结合numpy、pandas分析库,进行整理、连接、数据清洗和统计等歩骤、对缺失值,异常值等进行相应的处理,
2.使用matplotlib可视化展示公司产品类型、单价、时间、人群、地区与销量的关系来分析运营情况。