职位ID:100295

数据挖掘/爬虫项目

  • 合作方式:
  • 项目制 
  • 预估日薪:
  • 1000
  • 预估总价:
  • 13000元
  • 预估工时:
  • 13天
  • 所在区域:
  • 北京
  • 朝阳

需求描述

一、要求:
负责指定的网站/APP的网页信息抓取、数据提取、清洗、入库;
两年以上JAVA开发经验, 熟练使用一门以上脚本语言(Python/PHP等),熟悉LINUX;
熟悉网页抓取原理及技术,熟悉各种网页解析的策略和算法,熟悉基于正则表达式、XPath等网页信息抽取技术,熟悉基于Cookie的网站登录原理;
熟悉多线程、网络通信编程相关知识;
2年以上大规模网页爬虫开发经验, 熟悉JS,AJAX,网页消重等;
有分布式爬虫架构经验优先;
有新闻/垂直领域爬虫开发经验优先;
有良好的沟通能力、语言表达能力、团队协作能力、工作细心、认真负责。
二、工作内容:
1.实时采集微票儿的正在上映影片列表数据,包括:
“电影名称
简介
主创
评分
想看人数”
2.实时采集微票儿的即将上映影片列表数据,包括:
“电影名称
简介
主创
想看人数”
3.实时采集微票儿的影片信息数据,包括:
“电影名称(中文)
电影名称(英文)
想看人数
评分
类型
时长
上映日期
简介
主创
评论用户
用户评论总数
用户评论List
用户评论内容
用户评论点赞数
用户评论评价类型
用户评论回复内容
用户评论回复数
用户评论时间
影片票房今日排名
影片今日票房
影片累计票房
评论用户信息
评论用户观影轨迹
评论用户观影时间
评论用户影片名称
评论用户评论内容
评论用户评价
评论用户想看清单
评论用户想看清单影片名称
评论用户想看清单影片主演
评论用户想看清单影片想看人数
评论用户想看清单影片评分
评论用户想看清单影片上映日期”

4.实时采集淘票票的正在热映影片列表数据,包括:
“电影名称
评分
简介
主演”
5.实时采集淘票票的即将上映影片列表数据,包括:
“电影名称
想看人数
导演
主演”
6.实时采集淘票票的影片信息数据,包括:
“电影名称(中文)
电影名称(英文)
类型
地区
时长
上映日期
评分(上映)
评分人数(上映)
想看人数(未上映)
简介
演职人员
影片票房今日排名
影片首周票房
影片累计票房
影评用户
影评总数
影评List
影评内容
影评点赞数
影评星级
影评回复内容
影评回复数
影评时间”
三、项目制,总共13000

信用行为

  • 发布项目
    88
  • 订单总数
    12
  • 退款单数
    3

完善简历

工程师完善技术能力和项目经验,更易接到订单

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信客服

需求方请加需求方端客服沟通需求,工程师请加工程师端客服浏览推送职位

需求方端客服
工程师端客服
联系需求方端客服