能熟练使用python开发,掌握对网站的数据爬取工作,能进行简单的数据分析,熟练掌握爬虫request,scrapy、scrapy-redis爬虫流程,掌握正则表达式、xpath提取方式 ,掌握构建分布式爬虫。熟悉网站常见的反爬策略,能根据网页分析出常见反爬技术
瓜子二手网 获取全部品牌的车辆信息,使用scrapy
瓜子二手网是动态加载的网站,先使用抓包工具获取响应,为json格式
创建scrapy项目,在爬虫文件中重写start_requests(),将url入队列
将获取的响应进行解析,获取新的地址,交调度器入队列
将二次获取的数据解析后传入管道,保存至数据库