猿急送>

其他Python兼职程序员

ID：149188

戒

高级python爬虫工程师

公司信息：
千锋

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
可工作日驻场（离职原因）

所在区域：
其他
全区

技术能力

python爬虫,数据抽取及清洗,主要可以负责网页数据的定向爬取,获取相应的数据,并进行整理.精通爬虫框架scrapy.及爬虫技术urllib/selenium,精通各种网页源代码解析工具,如正则/Beautifulsoup/xpath.

项目经验

爬虫项目：

爬取淘宝网
软件环境：Python + Scrapy硬件环境：

项目描述：团队项目。淘宝网的数据可以反应用户更青睐哪种商品。对这些数据进行分析，能够让公司有针对性的进行制作合理方案，掌握最新的市场动向，把握先机，并且能够合理化的安排项目策划的进度。
技术描述：1. 主要使用scrapy框架进行抓取，在中间键里写了代理、header等，防止爬虫中断，由于部分网页采取了动态网页js加载，因此采用了Selenium进行了对动态html的处理。
2.根据网页数据在items.py中建模
3.定义爬虫行为，编写对应spider文件
4.利用xpath对数据进行抽取
5.编写中间件模拟客户端访问，编写User-Agent从中随机抽取用户头。
6.运用第三方ip代理池，防止ip被封获取不到数据，影响效率。
7.打开管道，编写pipelines文件。

爬取天猫网
软件环境：Python + Scrapy硬件环境：

项目描述：团队项目。天猫网的数据可以反应用户更青睐哪种商品。对商品的优惠券进行爬取,展示在微信公众号上面,让用户使用优惠价格进行购买.
技术描述：1. 主要使用scrapy框架进行抓取，在中间键里写了代理、header、cookie等，防止爬虫中断，由于部分网页采取了动态网页js加载，因此采用了Selenium进行了对动态html的处理。
2.根据网页数据在items.py中建模
3.定义爬虫行为，编写对应spider文件
4.利用re对数据进行抽取
5.编写中间件模拟客户端访问，编写User-Agent从中随机抽取用户头。
6.运用第三方ip代理池，防止ip被封获取不到数据，影响效率。
7.打开管道，编写pipelines文件。
8.编写邮件提示代码,让机器对异常错误进行邮件远程提醒.
9.对淘口令进行公众号和天猫网之间的商品购买.