职位ID:151825

新闻网站的栏目自动识别爬虫

  • 合作方式:
  • 项目制 全国远程
  • 预估日薪:
  • 500
  • 预估总价:
  • 2000元
  • 预估工时:
  • 4天
  • 所在区域:
  • 全国远程

需求描述

对于给定在Redis队列中的网站首页网址,识别其栏目(字数<10, 页面中的标题链接>=20,位置靠前),输出JSON结果到Redis队列。

1. 输入是JSON格式,包含域名首页,编号等字段。
2. 如果首页打不开,需要放入失败队列
3. 输入队列中的域名首页数量超过10万,需要协程高速并行处理
4. 为确定栏目中内容是否改变,需要计算其标题长度最长的5个链接的标题合并结果作为一个字段放入结果
5. 对于访问到的页面,要计算所有链接的数量,放入结果,便于以后改进处理。
6. 对某些网站要处理栏目页面中的子栏目。
7. 对异常网页要处理,如重定向,JS调入等。

要求开发人员最好已经有现有代码。因为这类爬虫要处理各种异常,新开发的一般不稳定。

信用行为

  • 发布项目
    9
  • 订单总数
    6
  • 退款单数
    1

完善简历

工程师完善技术能力和项目经验,更易接到订单

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信客服

需求方请加需求方端客服沟通需求,工程师请加工程师端客服浏览推送职位

需求方端客服
工程师端客服
联系需求方端客服