猿急送>

北京后端兼职程序员外包

周南

职位ID:100329

数据采集工程师

合作方式：
项目制

预估日薪：
800

预估总价：
4000元

预估工时：
5天

所在区域：
北京
朝阳

需求描述

一、需求描述
1 根据搜索关键词抓取微博信息：微博信息总数、微博信息List、微博地址、微博点赞信息、微博评论信息、微博评论总数、微博转发总数、微博发布时间、微博发布来源、微博内容。
2 抓取某一用户的微博信息：微博信息总数、微博信息List、微博发布者、微博点赞信息、微博评论信息、微博评论总数、微博转发总数、微博发布时间、微博发布来源。
3 抓取某一用户的用户信息：微博名，微博等级，认证类型，昵称，所在地，性别，感情状况，生日，个性域名，简介，注册时间，公司，地区，职位，大学，标签信息。
4 抓取某一用户的粉丝用户信息：粉丝总数、粉丝昵称、粉丝主页地址、粉丝用户关注数、粉丝用户粉丝数、粉丝微博数、粉丝地址、粉丝简介、粉丝关注来源、粉丝认证类型。
5 抓取某一用户的关注用户信息
关注用户总数、关注用户昵称、关注用户主页地址、关注用户关注数、关注用户粉丝数、关注用户微博数、关注用户地址、关注用户简介、关注用户关注来源、关注用户认证类型。
6 抓取热门话题信息
热搜榜信息：话题、搜索次数。
话题微博信息：微博信息总数、微博信息List、微博发布者、微博点赞信息、微博评论信息、微博评论总数、微博转发总数、微博发布时间、微博发布来源、微博内容、微博地址。

二、所需技能
负责指定的微博信息抓取、数据提取、清洗、入库；
两年以上JAVA开发经验, 熟练使用一门以上脚本语言(Python/PHP等)，熟悉LINUX；
熟悉网页抓取原理及技术，熟悉各种网页解析的策略和算法，熟悉基于正则表达式、XPath等网页信息抽取技术，熟悉基于Cookie的网站登录原理；
熟悉多线程、网络通信编程相关知识；
年以上大规模网页爬虫开发经验, 熟悉JS，AJAX，网页消重等；

三、其他要求
有分布式爬虫架构经验优先；
有新闻/垂直领域爬虫开发经验优先；
必须有微博信息采集抓取经验的工程师；

已完成

相似职位推荐

联系需求方端客服

热门标签列表

程序员接私活程序员兼职企业外包外包案例

热门人才推荐

北京后端兼职程序员外包

数据采集工程师

需求描述

相似职位推荐

信用行为

完善简历

发布任务

微信客服