python爬虫、后端
熟练掌握爬虫requests,scrapy,scrapy-redis爬虫流程,掌握正则表达式,xpath提取网页资源方法,熟练构建分布式爬虫,linux下定时启动爬虫
熟悉各个网站常见反爬策略,根据网页分析出常见反爬手段
熟悉前端代码,可以分析目标网站真实request地址和response内容,使用代理试水确定反爬虫界别,检测是否有投毒数据
针对不同反爬虫级别网站,做出具体scrapy部署,使用工具包括:伪造User-Agent,批量IP代理池,隧道动态ip代理,设置并发数量及下载速度
使用logging模块编写监控程序进行爬虫监控,并根据日期定向输入日志到log文件
针对不同反爬虫级别网站,做出具体scrapy部署,使用工具包括:伪造User-Agent,批量IP代理池,隧道动态ip代理,设置并发数量及下载速度 使用logging模块编写监控程序进行爬虫监控,并根据日期定向输入日志到log文件
熟练掌握爬虫requests,scrapy,scrapy-redis爬虫流程,掌握正则表达式,xpath提取网页资源方法,熟练构建分布式爬虫,linux下定时启动爬虫 熟悉各个网站常见反爬策略,根据网页分析出常见反爬手段 熟悉前端代码,可以分析目标网站真实request地址和