熟练掌握urllib、requests请求库的用法。
熟练使用xpath,css,re库分析解析并提取数据。
熟知UA,cookie,ip限制,防盗链、js动态加载等反爬机制。
熟练使用scrapy爬虫框架,进行代理ip,UA等设置,使用splash,selenuim进行页面渲染,获取数据。
熟练掌握应用docker部署spalsh服务,熟知docker相关命令
熟练使用fiddler、mitmdump等抓包工具,熟练使用appium进行app数据获取
熟知js逆向请求头加密、请求参数、数据加密等调试破解流程及方法
政通传媒项目
1、陕西省各个区县领导及机构信息网页分析,解析获取需求中的数据内容
2、搭建ccgp招中标爬虫日志系统等相关工作
3、解决招中标数据及机构领导数据抓取过程中遇到的技术难题等
4、设计ccgp爬虫异常数据统计逻辑,并将统计数据自动导入excel表格
5、对北京市各个区机构及领导爬虫进行拆分解析数据,并分表导入数据,解决获取数据时网站遇到的各种反爬手段
6、处理爬虫相关的问题