1、掌握使用Java web开发的spring mvc框架和 python的flask web框架的能力;
2、熟悉scrapy、scrapy-redis爬虫框架;
3、熟悉使用Python的pandas、numpy等数据清洗分析用到的库。
4、具备搭建hadoop完全分布式集群的能力;
5、熟悉掌握使用mysql、hbase,有一定的前端html,css,js等技术基础,熟悉MapReduce、spark stream等大数据技术。
6、具备使用spark的常用技术能力;包括Spark SQL、Spark Streaming、RDD编程等。
●工作内容:负责与新华三大学的大数据技术教学资源负责人对接,完成对大数据教学资源的验证以及二度开发;并且负责公司内部资源库的完善以及内容迭代更新。
●主要技术:
(1)使用Pandas、Numpy对数据进行数据清洗,使用Sklearn对数据进行数据分析以及数预测;编写Flask程序,将数据清洗分析出来的结果进行数据可视化。
(2)负责大数据相关学习资源的验证(python数据分析、MapReduce数据清洗、spark预测)和部分资源代码的开发(python爬虫【scrapy】、MapReduce数据清洗、spark预测等)。
(3)编写Scrapy爬虫程序,完成对自建招聘网站、电商网站进行数据爬取。
●职责业绩:教学资源发布到公司教学平台,达到公司教学平台符合新华三大学上线标准,完成大数据平台稳定且快速上线,目前已应用于多所高校。
数据采集某预定酒店的网站,采集网站里面所有酒店的信息,将信息保存在json文件或mysql数据库中。
爬虫某小说网站的免费小说全部章节内容,这里使用了scrapy-redis分布式爬虫,完成小说数据的采集(由于内容过多,所以截图没有将所有的小说都截取),解决单机爬虫速度慢问题。
将某足球队数据进行数据清洗分析,最后完成数据的展示。这里主要用到matplotlib、missingno和seaborn结合做数据可视乎,用pandas做数据预处理。