项目名称:京东商品爬虫
项目描述:抓取指定商品的名称,价格,促销,评论等基本信息
项目过程:
1)根据需求确定数据模型,构造请求地址;
2)解析列表页,提取商品ID, 利用fiddler手机抓包抓取json数据;
3)构造商品详情页请求,实现翻页功能,jsonpath提取促销,评论信息;
4)数据保存到Mongodb中,构建User-Agent池,IP池防止反爬;
项目名称:链家网爬虫
项目描述:链家网二手房成交房源信息抓取
项目过程:
1)分析网站结构,利用xpath解析,构建各级区域链接;
2) 解析页面,获取房源信息,实现翻页功能;
3)使用 scrapy-redis 构建分布式爬虫,构建IP池,UserAgent池;
4)编写 spider,调试爬虫程序及处理 bug,保存数据到Mongodb;