猿急送>

广州其它兼职程序员

ID：199498

野驴

数据分析员

公司信息：
广州骅路赢电子有限公司

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
广州
天河

技术能力

1、熟悉python语言，熟悉各种爬虫技术和框架，如request，scrapy，selenium等等；
2、有过将近一年的web网站爬虫和app爬虫的经验；
3、掌握正则表达式，xpath提取网页资源的方法
4、熟悉反爬虫技术，如加密参数的逆向解析、滑块验证、IP代理池、绕过JavaScript 参与运算等等；
5、可根据前端网页代码，分析目标网站的真实request地址和response内容，测试网站的反爬级别和访问阈值，检测是否有投毒数据；
6、熟悉numpy科学计算库和panda数据分析库；
7、Python操作Mysql数据库增删改查。

项目经验

2019.04——2019.05
亚马逊电商平台
责任描述：
编写爬虫程序，数据清洗，维护IP代理池，编写反反爬策略，数据存储，结果报告。
项目简介：
1、爬取所有地区的亚马逊电商平台的商品列表页和详情页数据；
2、获取所有地区的亚马逊电商网站的根域名和顶级域名。
3、由于亚马逊有IP访问限制，所以使用IP代理池技术；
4、亚马逊有图形验证码反爬技术，使用百度的图形验证码识别api接口；
5、根据不同的UI页面，使用不同的正则表达式和xpath提取规则；
6、数据保存在json字符串中，转换成python字典，存进mysql数据库；
7、使用生产者-消费者队列对抓取下来的数据进行清洗，并生成分析结果报告，虽然这样子爬取速度比较慢，但是数据的实时性强。
8、该项目每天的爬取数量大约在10万~20万条，消耗的代理IP数量每天约为500~1500条。

2019.05——2019.05
eBay电商平台
责任描述：
编写爬虫程序，数据清洗，维护IP代理池，编写反反爬代码，数据存储，结果报告，VPN搭建。
项目简介：
1、爬取eBay电商平台的商品列表页和详情页数据；
2、eBay网站会根据你的ip所在地给你提供所在地区的商品信息，所以搭建多个地区的VPN