爬虫:
精通scrapy、selenium、requests等爬虫框架或模块,能够爬取网页和app中的数据。能破解ip访问评率限制、带cookie或session请求、字体加密等反扒策略
后端:
精通flask框架,开发各类api接口。
爬取过拉钩网、美团、饿了么、抖音、youtube等知名网站或app
能够使用多线程、多进程、异步爬虫满足客户对速率的需求。
能够破解各类验证、登入,合理配置ip。
角色 | 职位 |
负责人 | 爬虫工程师 |
队员 | 后端工程师 |
1.使用selenium登入饿了么并保存cookie 2.通过api接口查询需要爬取地点的经纬度并保存 3.构建headers并附带上之前保存的cookie向饿了么接口发送请求,并拿到数据 4.保存店铺id、地址、店铺名称等数据
1.使用selenium访问腾讯的qq解封网站 2.输入账号并通过客户提供的短信接受验证码接口获取短信验证码 3.破解腾讯滑块验证 4.输入短信验证码,等待网页提示解封成功