1、熟练掌握爬虫requests、scrapy爬虫流程,熟练基于re正则、XPath等网页解析技术
2、熟悉常见网站反爬策略,能根据网页分析出常见反爬手段,使用工具包括不限于:伪造User_Agent、IP代理、设置并发数量及下载速度
3、熟悉Http协议、TCP/IP协议等网络基础
4、熟悉Django框架
web后台
1、 Django后台,xadmin/admin管理
2、 主要功能:会员管理、文章管理、govbuy活动、首页广告、用户注册统计等
3、 其他:上传、下载服务器文件功能、详情/列表页的模板继承和视图编写、富文本框、图标展示功能
4、 负责Centos7下使用apache部署django,配置apache配置文件
5、 定期查看项目日志并清理,学习新技术,完善项目代码并上传到git服务器
caleprocure网站
1、该网站需要保持会话一直进行post,postman无法请求。使用工具:fiddle、pycharm、scrapy
2、 请求网站需要带上User-Agent和Accept
3、 进一步请求start_urls,返回278状态码,解析json得到下一个链接和参数
4、 请求详情页的过程,分析url拼接方法其中一个片段在另一个网页下载文件里
5、 下载xls文件,用python读取文件,得出全部详情页及url片段
6、 网站进入下载页,所有网站post链接都相同,参数也相同,只有第一个链接能成功进入下载页
7、 查阅scrapy为后进先出队列,故创建详情页队列,依次进行网站请求
8、 最后判断下载页是否有多余参数,有就必须添加,判断文件下载数量与网页上数量是否相同
9、数据保存在json字符串中,转化成python字典,提取信息
10、保存数据在mysql
11、使用logging模块监控爬虫,并定向输出日志到log文件
bidsync网站
1、项目网站需要登录,详情页根据列表页得到的href分3种形式
2、 编写登录模块,账号密码及需要的参数post请求start_url,xpath解析出信息及详情页链接
3、 将详情页分类,编写3段函数,指定链接指定解析,利用re、xpath提取、清洗
4、保存数据在mysql
5、使用logging模块监控爬虫,并定向输出日志到log文件