项目一:对唯品会网站数据的抓取
责任描述:编写爬虫程序,想出反爬策略,数据清洗分表存储,维护代理IP池
项目简介:
项目概况:
爬取唯品会分类下所有女装.
遇到问题及解决方案如下:
1、爬取量较大,用scrapy-redis爬取,因为该框架实现url和数据去重、持久化,构建RedisSpider分布式爬虫,爬取更快
2、需要携带cookie访问网页内容,采用ip代理
3、处理反爬策略,url地址需要删除些字段可以获取json数据面
4、使用logging模块编写监控程序进行爬虫监控并根据日期定向输出日志到log文件
项目二:对58同城兼职的数据抓取
责任描述:编写爬虫程序,想出反反爬策略.数据清洗分表存储,维护代理IP池
项目简介:
项目概况:
爬取58同城兼职的数据抓取
遇到的问题及解决方案如下:
1、数据量较少,用requests爬取
2、反爬频率较高,使用快代理抓取
3、使用正则,Xpath等提取网页内容
4、保存数据到json文件
5、使用logging模块编写监控程序进行爬虫监控并根据日期定向输出日志到log文件