技术能力
1、语言类
(1)熟练掌握Java和Scala语言,够独立参与代码编写
(2)熟悉Linux系统,会搭建hadoop集群并掌握Shell脚本语言,会基本的shell或python编程
2、数据仓库类
(1)熟练掌握Hive,会使用hql语言,会编写UDF函数并对hive进行优化,,曾参与过多次数仓项目
(2)会使用es、redis、mysql、hdfs、hbase等进行数据存储,及其增删改查
3、Spark/Hadoop以及流式处理类
(1)熟练掌握sparkcore、sparksql、sparkstreaming使用,理解RDD,DF、DS、DStream
(2)熟练掌握MapReduce的shffle过程,会利用mr框架进行数据分析
(3)熟练掌握Hdfs、yarn、zookeeper、hbase、sqoop、flume等生态圈软件的使用
(4)熟练掌握Kafka的组件结构,可以解决数据传输的安全性问题
(5)熟练掌握hue的使用,对CDH集群进行监控部署等
4、其他类
(1)会使用svn、postman等小工具
(2)会编写spring boot的api接口服务
项目二:基于数仓类的K12教育考试系统
项目时间: 2018.04 - 2018.07
系统架构:hdfs+mysql+hive+sqoop+mapreduce
项目描述:
该项目是一个教育系统项目,主要对学生每次考试的成绩进行统计,去判断学生的整体学习情况,查缺补漏,为学生推荐合适的题目,对他提供量身定做的补习模式,并做用户画像,贴上标签,以此在提高学生的成绩的同时提高品牌知名度和收益额。
项目职责:
数据清洗(ETL):利用kettle对数据进行清洗过滤,解析主观题和客观题中的json串,并对学生的一些关键信息用MD5进行脱敏
数据分析: 完成项目的各个指标
1学生维度分析
2 科目维度分析
3 班级维度分析
4 试卷维度分析
5 用户画像
数据对接:把hive中的表利用sqoop对接到mysql中进行存储展示
项目一:基于讯飞商城的用户购物行为分析系统
项目时间: 2018.09 - 2019.03
系统架构: hdfs+spark+mysql+hive+kafka+mr
项目描述: 该项目是针对讯飞商城的用户购物习惯分析 User Action Deep Parse简称UADP。我们可以分析出不同地域不同年龄段的人的消费习惯,可以分析出不同商品在不同时间不同地域的销量情况,通过一些热销商品去做广告去吸引流量和促进交易量,以此提高订单转化率提高收益,给决策者提供决策的数据信息
项目职责:
数据清洗(ETL):利用mr对数据进行清洗过滤得,并存储到hdfs中
数据分析: 完成项目的各个指标
1平台活跃度统计(新增用户,新增会员,活跃用户,活跃会员,总用户等)
2订单分析(下单,支付,退款,成功)
3 热销商品统计(时节热销品,地域热销品)
4 用户分析(年龄,性别,地域,职业)
5 黑名单统计
6 推荐系统
项目优化:对spark进行优化