1、熟悉python语言,熟悉各种爬虫技术和框架,如request,scrapy,selenium等等;
2、有过将近一年的web网站爬虫和app爬虫的经验;
3、掌握正则表达式,xpath提取网页资源的方法
4、熟悉反爬虫技术,如加密参数的逆向解析、滑块验证、IP代理池、绕过JavaScript 参与运算等等;
5、可根据前端网页代码,分析目标网站的真实request地址和response内容,测试网站的反爬级别和访问阈值,检测是否有投毒数据;
6、熟悉numpy科学计算库和panda数据分析库;
7、Python操作Mysql数据库增删改查。
2019.04——2019.05
亚马逊电商平台
责任描述:
编写爬虫程序,数据清洗,维护IP代理池,编写反反爬策略,数据存储,结果报告。
项目简介:
1、爬取所有地区的亚马逊电商平台的商品列表页和详情页数据;
2、获取所有地区的亚马逊电商网站的根域名和顶级域名。
3、由于亚马逊有IP访问限制,所以使用IP代理池技术;
4、亚马逊有图形验证码反爬技术,使用百度的图形验证码识别api接口;
5、根据不同的UI页面,使用不同的正则表达式和xpath提取规则;
6、数据保存在json字符串中,转换成python字典,存进mysql数据库;
7、使用生产者-消费者队列对抓取下来的数据进行清洗,并生成分析结果报告,虽然这样子爬取速度比较慢,但是数据的实时性强。
8、该项目每天的爬取数量大约在10万~20万条,消耗的代理IP数量每天约为500~1500条。
2019.05——2019.05
eBay电商平台
责任描述:
编写爬虫程序,数据清洗,维护IP代理池,编写反反爬代码,数据存储,结果报告,VPN搭建。
项目简介:
1、爬取eBay电商平台的商品列表页和详情页数据;
2、eBay网站会根据你的ip所在地给你提供所在地区的商品信息,所以搭建多个地区的VPN