1.可熟练使用requests、selenium 、scrapy等库访问网页上的相关数据
2.可以熟练使用lxml 、beautifulsoup、re库,对网页数据进行筛选和解析
3.可以熟练使用csv等第三方库,对爬取下来的数据进行整理和封装。
4.可以熟练使用appium库,对手机app上的数据进行抓取
5.熟练掌握使用各种线程、进程、携程,可以快速的、准确的获取相关数据
6.能够破解Js反扒,突破80%的网页,拿到数据
7.熟练使用threading 、gevent和进程,可以方便快捷的获得数据。
1. 能够逆向破解智联招聘(www.jobs.zhaopin.com)cookie中的acw_sc__v2字段,拿到数据(维护中)
2. 破解boss直聘__zp_token字段(维护中)
3. 搭建账号池,并破解天眼查验证码
4. 爬取网易云音乐
5. 爬取京东商品信息
6. 大众点评数据爬虫(一直维护中)
根据跟死需求,项目分为三个部分,列表页、职位详情页、公司主页,爬取下来的数据分别保存在三张表中 反爬措施: 1. cookie加密 2. 封禁IP
这是boss直聘的部分代码以及运行截图,爬取的字段有:职位名称、公司logo、公司网址、地址、工资、职位福利等 反爬措施:IP,该网站对IP的质量要求非常高,并且使用了极验验证码