1. 系统掌握 Python,有扎实的爬虫开发经验;
2.熟悉进程、线程、协程结合爬虫的使用;
3.熟悉 xpath、re、json 模块进行数据提取;
4. 熟练使用 scrapy 框架及 scrapy-redis 分布式爬虫架构;
5. 熟练使用 selenium 自动化、requests、requests-html 爬取数据;
6. 熟练运用 Mysql,Redis,Mongo 等数据库工具,实现对各种数据的存储及提取;
7. 熟悉反爬虫机制及(tcp/ip)网络协议,能够解决常见的反爬虫和网络异常等问题;
8. 熟悉 postman、fiddler 等抓包工具的使用,能够熟悉分析每个包之间的关系;
9. 有较为丰富的 js 逆向经验,。
项目:
1.极简壁纸: js逆向突破滑块验证码
2.知乎:搜索页headers加密参数逆向破解
3.抖音:抖音用户信息,热门视频,推荐视频,抖音商城等信息的采集
4.京东:scrapy框架采集京东图书
6.淘宝:自动化采集淘宝商品信息,评论等
角色 | 职位 |
负责人 | 爬虫开发工程师 |
队员 | 产品经理 |
队员 | 后端工程师 |