1熟练学握爬中requests,scrapy,scrapy-redis,urlibs,selenium爬虫流程,掌握正则表达式,xpath提取网页资源方法就练构建分布式爬虫。
2凯悉各个网站常见反爬简略,能很据网页分析出常见反爬手段
3针对不同反把虫吸别网站,做出具体Scrapy部署,使用工具包括不周限于:伪遭User-Agent,批量IP代理池,设置并发数量及下整速度
4熟悉Djagno等框架,可以独立完成网站制作。
5熟悉msyql数据库,MongoDB和Redis等使用。
91再生(包括PC端与移动端)
负责网站web开发,编写相关相虫程序,想出反反爬策略,数据清洗,分表存储。
1、需要爬虫的数据经过分拆,得出是所需要的数据可进过POST请求并携带参数得到,考虑到数据最较多,采用scrapy-redis进行起取,因为该框架实现url和数据去重、持久化,分布式比较方便,构建RedisSpider分布式爬虫,爬取更快
2、下我的微信二维码图片有些因为格式原因无法打开,筛选出来,通过os模块对这些图片批量重多名加后缀
3、每个代理人的个人网站详情页面模板不太一栏,但是有三种页面的HTML结构,在提取资格证号的时娱,需要谝写三仲页面的xpath提取代码,进行三次判断,对应每种页面的HTML特征,适用对应的提取方法
4、考虑网站能否打开和打开时间问题,一般能要加异常判断。超时,retry等成少报措
5、数据按公司分表存储于mysgl,减经一个表的负数
6、批建USER-AGENT池,使电随机代理,随机iP采用阿布云动态ip
zz91是一款专业的再生资源综合服务平台,主要内容:再生资源的咨询发布,为客户定制企业主页,提供客户最全面的再生资源信息,物流的调配的等。负责部分模块的设计与后台开发以及日常维护,包括web端与app端。 网站网址 www.zz91.com
zz91是一款专业的再生资源综合服务平台,主要内容:再生资源的咨询发布,为客户定制企业主页,提供客户最全面的再生资源信息,物流的调配的等。负责部分模块的设计与后台开发以及日常维护,包括web端与app端。网站网址 www.zz91.com