一、需求描述
1 根据搜索关键词抓取微博信息:微博信息总数、微博信息List、微博地址、微博点赞信息、微博评论信息、微博评论总数、微博转发总数、微博发布时间、微博发布来源、微博内容。
2 抓取某一用户的微博信息:微博信息总数、微博信息List、微博发布者、微博点赞信息、微博评论信息、微博评论总数、微博转发总数、微博发布时间、微博发布来源。
3 抓取某一用户的用户信息:微博名,微博等级,认证类型,昵称,所在地,性别,感情状况,生日,个性域名,简介,注册时间,公司,地区,职位,大学,标签信息。
4 抓取某一用户的粉丝用户信息 :粉丝总数、粉丝昵称、粉丝主页地址、粉丝用户关注数、粉丝用户粉丝数、粉丝微博数、粉丝地址、粉丝简介、粉丝关注来源、粉丝认证类型。
5 抓取某一用户的关注用户信息
关注用户总数、关注用户昵称、关注用户主页地址、关注用户关注数、关注用户粉丝数、关注用户微博数、关注用户地址、关注用户简介、关注用户关注来源、关注用户认证类型。
6 抓取热门话题信息
热搜榜信息:话题、搜索次数。
话题微博信息:微博信息总数、微博信息List、微博发布者、微博点赞信息、微博评论信息、微博评论总数、微博转发总数、微博发布时间、微博发布来源、微博内容、微博地址。
二、所需技能
负责指定的微博信息抓取、数据提取、清洗、入库;
两年以上JAVA开发经验, 熟练使用一门以上脚本语言(Python/PHP等),熟悉LINUX;
熟悉网页抓取原理及技术,熟悉各种网页解析的策略和算法,熟悉基于正则表达式、XPath等网页信息抽取技术,熟悉基于Cookie的网站登录原理;
熟悉多线程、网络通信编程相关知识;
年以上大规模网页爬虫开发经验, 熟悉JS,AJAX,网页消重等;
三、其他要求
有分布式爬虫架构经验优先;
有新闻/垂直领域爬虫开发经验优先;
必须有微博信息采集抓取经验的工程师;