猿急送>

山东后端兼职程序员

ID：171540

等到你了么

大数据开发工程师

公司信息：
康联科技有限公司

工作经验：
3年

兼职日薪：
600元/8小时

兼职时间：
下班后
周六
周日

所在区域：
山东
全区

技术能力

1.熟练使用 Java 、Scala语言
2.熟练使用mysql、HBase理解Hbase的架构及rowkey设计。
3.理解Hadoop 的HA集群，了解HDFS以及MR运行原理，可对数据清洗、过滤、汇总。
4.熟悉Spark架构的执行流程以及工作原理 , 以及RDD之间的依赖和Spark的容错机制
5.理解hive的工作原理，了解数据仓库建立。
6.熟练使用Fulme、Kafka等大数据框架进行数据的传输采集,并且进行处理

项目经验

88网站风险预警平台
1、项目背景： 2018.07 - 2019.01
88二手网站提供着买卖二手服务的功能,如当当网瓜子二手车等等,但是有大量用户的同时也存在着大量的爬虫,这些爬虫消耗了我们系统大量的资源但是却没有转换成实际的销量,导致系统资源消耗严重,严重时造成系统波动,更为严重的造成了系统宕机,影响了正常用户的访问以及购买.通过日志访问分析,发现网站存在有大量的爬虫,基于这种情况,我们就需要开发一个大数据反爬虫的平台.
2、系统架构：nginx + Kafka + Spark + Redis + HDFS
3、项目架构：
(1) 采集数据发送到kafka消息中间件,供后续的实时和离线使用
(2) 实时的从kafka中获取到数据,然后通过爬虫检测,检测出异常数据,找到可能是爬虫的数据
(3) 将获取到的爬虫数据放到redis中,供后续的业务端使用
(4) 将kafka中的预处理后的数据,离线的计算出每天的转化率,使用图表的方式展现
4、本人职责
(1) 将数据通过和数据库中爬虫的黑名单对比,以及各种规则例如查询,下订单来进行数据的预处理,并且对订单中的手机号进行脱敏,最后封装成一个Bean对象发送到Kafka中
(2) 实时的将数据根据爬虫规则给标记出来,比如说某一分钟访问的频率,某个ip在单位时间内的访问量,单位时间内的UA种类,单位时间内访问页面的最短时间间隔等规则,如果符合上述的规则,我们就初步判定可能是一个爬虫并且进行标记
(3) 将标记出来有可能是爬虫数据的进行一个打分,比如说如果一个ip在单位时间内访问的最短时间间隔没有超过3s,或者在单位时间内某个ip访问量很大,超过了超过了设置的一个阈值,就计分,最后统计一下总分情况,如果超过了总分的80%的话就判定是爬虫数据
(4) 将识别出来的爬虫实时的写入到redis中