猿急送>

广州Python兼职程序员

ID：191262

passerby

Python大数据工程师

公司信息：
广东轩辕网络股份有限公司

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
广州
天河

技术能力

1、掌握使用Java web开发的spring mvc框架和 python的flask web框架的能力；
2、熟悉scrapy、scrapy-redis爬虫框架；
3、熟悉使用Python的pandas、numpy等数据清洗分析用到的库。
4、具备搭建hadoop完全分布式集群的能力；
5、熟悉掌握使用mysql、hbase，有一定的前端html，css，js等技术基础，熟悉MapReduce、spark stream等大数据技术。
6、具备使用spark的常用技术能力；包括Spark SQL、Spark Streaming、RDD编程等。

项目经验

●工作内容：负责与新华三大学的大数据技术教学资源负责人对接，完成对大数据教学资源的验证以及二度开发；并且负责公司内部资源库的完善以及内容迭代更新。
●主要技术：
（1）使用Pandas、Numpy对数据进行数据清洗，使用Sklearn对数据进行数据分析以及数预测；编写Flask程序，将数据清洗分析出来的结果进行数据可视化。
（2）负责大数据相关学习资源的验证（python数据分析、MapReduce数据清洗、spark预测）和部分资源代码的开发(python爬虫【scrapy】、MapReduce数据清洗、spark预测等)。
（3）编写Scrapy爬虫程序，完成对自建招聘网站、电商网站进行数据爬取。
●职责业绩：教学资源发布到公司教学平台，达到公司教学平台符合新华三大学上线标准，完成大数据平台稳定且快速上线，目前已应用于多所高校。

案例展示

Python爬虫酒店信息（scrapy）

数据采集某预定酒店的网站，采集网站里面所有酒店的信息，将信息保存在json文件或mysql数据库中。
Python爬虫小说网站

爬虫某小说网站的免费小说全部章节内容，这里使用了scrapy-redis分布式爬虫，完成小说数据的采集（由于内容过多，所以截图没有将所有的小说都截取），解决单机爬虫速度慢问题。
Python数据清洗分析

将某足球队数据进行数据清洗分析，最后完成数据的展示。这里主要用到matplotlib、missingno和seaborn结合做数据可视乎，用pandas做数据预处理。