目的:针对客户端电子书应用存在正版收费的情况,对于新发布的小说文学作品在免费的情况下进行阅读
技术:python,requests,lxml,os, mysql
实现:通过获取到资源对应的网站链接,对网页结构进行分析,提取出需要的字段内容
难点:数据采集时因为采集频率过高触发网站断开响应,使用random+sleep随机1-3s休眠,爬取一段时间后网站仍会断开链接;
针对多次访问网页断开链接的情况,使用mysql数据库存储已经采集国的页面链接和总体的页面链接,网站断开服务后第二 次重新爬取判断爬取的网页链接是否在存储的页面链接中,成功解决。