职位ID:100329

数据采集工程师

  • 合作方式:
  • 项目制 
  • 预估日薪:
  • 800
  • 预估总价:
  • 4000元
  • 预估工时:
  • 5天
  • 所在区域:
  • 北京
  • 朝阳

需求描述

一、需求描述
1 根据搜索关键词抓取微博信息:微博信息总数、微博信息List、微博地址、微博点赞信息、微博评论信息、微博评论总数、微博转发总数、微博发布时间、微博发布来源、微博内容。
2 抓取某一用户的微博信息:微博信息总数、微博信息List、微博发布者、微博点赞信息、微博评论信息、微博评论总数、微博转发总数、微博发布时间、微博发布来源。
3 抓取某一用户的用户信息:微博名,微博等级,认证类型,昵称,所在地,性别,感情状况,生日,个性域名,简介,注册时间,公司,地区,职位,大学,标签信息。
4 抓取某一用户的粉丝用户信息 :粉丝总数、粉丝昵称、粉丝主页地址、粉丝用户关注数、粉丝用户粉丝数、粉丝微博数、粉丝地址、粉丝简介、粉丝关注来源、粉丝认证类型。
5 抓取某一用户的关注用户信息
关注用户总数、关注用户昵称、关注用户主页地址、关注用户关注数、关注用户粉丝数、关注用户微博数、关注用户地址、关注用户简介、关注用户关注来源、关注用户认证类型。
6 抓取热门话题信息
热搜榜信息:话题、搜索次数。
话题微博信息:微博信息总数、微博信息List、微博发布者、微博点赞信息、微博评论信息、微博评论总数、微博转发总数、微博发布时间、微博发布来源、微博内容、微博地址。

二、所需技能
负责指定的微博信息抓取、数据提取、清洗、入库;
两年以上JAVA开发经验, 熟练使用一门以上脚本语言(Python/PHP等),熟悉LINUX;
熟悉网页抓取原理及技术,熟悉各种网页解析的策略和算法,熟悉基于正则表达式、XPath等网页信息抽取技术,熟悉基于Cookie的网站登录原理;
熟悉多线程、网络通信编程相关知识;
年以上大规模网页爬虫开发经验, 熟悉JS,AJAX,网页消重等;

三、其他要求
有分布式爬虫架构经验优先;
有新闻/垂直领域爬虫开发经验优先;
必须有微博信息采集抓取经验的工程师;

信用行为

  • 发布项目
    2
  • 订单总数
    1
  • 退款单数
    0

完善简历

工程师完善技术能力和项目经验,更易接到订单

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信客服

需求方请加需求方端客服沟通需求,工程师请加工程师端客服浏览推送职位

需求方端客服
工程师端客服
联系需求方端客服