1、测试技术:包括测试工具的使用(postman, soapui等)自动化技术:python自动化,网页自动化,接口自动化
2、爬虫技术:包括scrapy框架的使用,requests库,beautifulsoup, 数据库链接
项目1:
负责根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段;
负责通过requests、scrapy、xpath等技术手段编写爬虫程序进行内容抓取,对抓取到的数据进行清洗过滤,分表存储,以供其他部门使用;
项目2:
根据业务需求,实现大规模文本、图片数据抓取、清洗、存储等工作;
根据业务需求通过抓包技术,包括代理、selenium、验证码处理等
此作品为租房网的爬虫的项目,主要用到的是scrapy框架,具体的技术用到了验证码识别,数据库连接,ip代理设置 scrapy框架包括spider, items, downloadware, middleware, 几个主要的组件
淘宝爬虫,运用scrapy框架爬取商品信息,包括连接以及价格等,主要运用验证码识别,数据库连接。 中间处理数据的组件可配置