对于给定在Redis队列中的网站首页网址,识别其栏目(字数<10, 页面中的标题链接>=20,位置靠前),输出JSON结果到Redis队列。
1. 输入是JSON格式,包含域名首页,编号等字段。
2. 如果首页打不开,需要放入失败队列
3. 输入队列中的域名首页数量超过10万,需要协程高速并行处理
4. 为确定栏目中内容是否改变,需要计算其标题长度最长的5个链接的标题合并结果作为一个字段放入结果
5. 对于访问到的页面,要计算所有链接的数量,放入结果,便于以后改进处理。
6. 对某些网站要处理栏目页面中的子栏目。
7. 对异常网页要处理,如重定向,JS调入等。
要求开发人员最好已经有现有代码。因为这类爬虫要处理各种异常,新开发的一般不稳定。