ID:171540

等到你了么

大数据开发工程师

  • 公司信息:
  • 康联科技有限公司
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 山东
  • 全区

技术能力

1.熟练使用 Java 、Scala语言
2.熟练使用mysql、HBase理解Hbase的架构及rowkey设计 。
3.理解Hadoop 的HA集群,了解HDFS以及MR运行原理,可对数据清洗、过滤、汇总。
4.熟悉Spark架构的执行流程以及工作原理 , 以及RDD之间的依赖和Spark的容错机制
5.理解hive的工作原理,了解数据仓库建立。
6.熟练使用Fulme、Kafka等大数据框架进行数据的传输采集,并且进行处理

项目经验

88网站风险预警平台
1、项目背景: 2018.07 - 2019.01
88二手网站提供着买卖二手服务的功能,如当当网 瓜子二手车等等,但是有大量用户的同时也存在着大量的爬虫,这些爬虫消耗了我们系统大量的资源但是却没有转换成实际的销量,导致系统资源消耗严重,严重时造成系统波动,更为严重的造成了系统宕机,影响了正常用户的访问以及购买.通过日志访问分析,发现网站存在有大量的爬虫,基于这种情况,我们就需要开发一个大数据反爬虫的平台.
2、系统架构:nginx + Kafka + Spark + Redis + HDFS
3、项目架构:
(1) 采集数据发送到kafka消息中间件,供后续的实时和离线使用
(2) 实时的从kafka中获取到数据,然后通过爬虫检测,检测出异常数据,找到可能是爬虫的数据
(3) 将获取到的爬虫数据放到redis中,供后续的业务端使用
(4) 将kafka中的预处理后的数据,离线的计算出每天的转化率,使用图表的方式展现
4、本人职责
(1) 将数据通过和数据库中爬虫的黑名单对比,以及各种规则例如查询,下订单来进行数据的预处理,并且对订单中的手机号进行脱敏,最后封装成一个Bean对象发送到Kafka中
(2) 实时的将数据根据爬虫规则给标记出来,比如说某一分钟访问的频率,某个ip在单位时间内的访问量,单位时间内的UA种类,单位时间内访问页面的最短时间间隔等规则,如果符合上述的规则,我们就初步判定可能是一个爬虫并且进行标记
(3) 将标记出来有可能是爬虫数据的进行一个打分,比如说如果一个ip在单位时间内访问的最短时间间隔没有超过3s,或者在单位时间内某个ip访问量很大,超过了超过了设置的一个阈值,就计分,最后统计一下总分情况,如果超过了总分的80%的话就判定是爬虫数据
(4) 将识别出来的爬虫实时的写入到redis中

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服