一、要求:
负责指定的网站/APP的网页信息抓取、数据提取、清洗、入库;
两年以上JAVA开发经验, 熟练使用一门以上脚本语言(Python/PHP等),熟悉LINUX;
熟悉网页抓取原理及技术,熟悉各种网页解析的策略和算法,熟悉基于正则表达式、XPath等网页信息抽取技术,熟悉基于Cookie的网站登录原理;
熟悉多线程、网络通信编程相关知识;
2年以上大规模网页爬虫开发经验, 熟悉JS,AJAX,网页消重等;
有分布式爬虫架构经验优先;
有新闻/垂直领域爬虫开发经验优先;
有良好的沟通能力、语言表达能力、团队协作能力、工作细心、认真负责。
二、工作内容:
1.实时采集微票儿的正在上映影片列表数据,包括:
“电影名称
简介
主创
评分
想看人数”
2.实时采集微票儿的即将上映影片列表数据,包括:
“电影名称
简介
主创
想看人数”
3.实时采集微票儿的影片信息数据,包括:
“电影名称(中文)
电影名称(英文)
想看人数
评分
类型
时长
上映日期
简介
主创
评论用户
用户评论总数
用户评论List
用户评论内容
用户评论点赞数
用户评论评价类型
用户评论回复内容
用户评论回复数
用户评论时间
影片票房今日排名
影片今日票房
影片累计票房
评论用户信息
评论用户观影轨迹
评论用户观影时间
评论用户影片名称
评论用户评论内容
评论用户评价
评论用户想看清单
评论用户想看清单影片名称
评论用户想看清单影片主演
评论用户想看清单影片想看人数
评论用户想看清单影片评分
评论用户想看清单影片上映日期”
4.实时采集淘票票的正在热映影片列表数据,包括:
“电影名称
评分
简介
主演”
5.实时采集淘票票的即将上映影片列表数据,包括:
“电影名称
想看人数
导演
主演”
6.实时采集淘票票的影片信息数据,包括:
“电影名称(中文)
电影名称(英文)
类型
地区
时长
上映日期
评分(上映)
评分人数(上映)
想看人数(未上映)
简介
演职人员
影片票房今日排名
影片首周票房
影片累计票房
影评用户
影评总数
影评List
影评内容
影评点赞数
影评星级
影评回复内容
影评回复数
影评时间”
三、项目制,总共13000