1.熟练掌握Spark的MapReduce模型,并能熟练使用RDD进行开发;
2.熟悉Hadoop生态环境,如HDFS、CDH、HBase、Hive、Spark、Hue、Kafka等,有实际研发使用经验;
3.熟练掌握Scala语言,同时也能使用Java、Python、Lisp、Javascript等编程语言开发脚本;
4.熟练使用常用的Linux shell命令以及shell脚本编写;
5.掌握POI库,能用其自动生成较复杂的Excel电子报表;
外购数据融合项目
项目技术:HBase、Mysql、Python、Spark、Scala
项目工具:SVN、IDEA
项目描述:由于本公司数据不全,公司从天眼查购买了大量数据。买来数据的格式与公司现有格式不一致,需进行ETL将两部分数据融合,才能正常使用。
责任描述:
1.估算工作量,排出各个进度的时间节点
2.买来的天眼查数据是Mysql格式的,有近100个表,上千个字段,而公司数据是存在HBase中,无法兼容。要一一对应每个表,逐个编写Spark任务,利用Spark的jdbc方法从Mysql中读取数据,再经过格式转换,存在对应的HBase字段中
3.每个月都会接收到新的外购数据,为避免重复工作以及人力浪费,将整个流程编写shell脚本串联起来,实现自动化,提高效率
企业投资族谱项目
项目技术:HBase、Mysql、Python、Spark、Scala
项目工具:SVN、IDEA
项目描述:公司打算在产品上新推出一个功能,从海量企业数据中进行数据挖掘,挖掘出企业之间互相的投资关系,每家企业都建立一个投资族谱,从族谱图中能清晰看出每家企业的股东是谁,以及又投资了哪些企业,一目了然。
责任描述:
1.大致评估一下运算量和技术难度,是否超出公司承受范围
2.快速进行原型开发,有些难度细节不可能在规划时就考虑周全,把遇到的困难记录并上报
技术客服后台项目
项目技术:Springboot、Scala、Themaleaf、HBase
项目工具:Maven、IDEA
项目描述:业务原因,技术客服部门和我们大数据部门的沟通交流非常频繁,但其中琐碎重复的沟通非常多。可以给技术客服部专门搭建一个后台页面,开放给他们一些合理的权限,优化流程,把生产力从琐碎重复的工作中解放出来,提高生产效率和有效沟通率。
责任描述:
1.梳理技术客服部反映频率比较高的问题,结合权限、难度等多方面因素,给出该后台页面的大致功能框架
实现HBase代码的封装,为上层提供接口