1.熟练掌握 Java /scala基础知识, 具有良好编码习惯
2.熟悉 Hadoop 集群的搭建和基础配置,熟练使用 HDFS 及 MapReduce 实现功能
3.熟悉 Hive 原理,了解 Hive 中内部表、外部表,熟悉 Hql 语句及 UDF、UDTF 的编写
4.熟练使用 Flume 进行日志收集以及数据的多级流动、扇入和扇出
5.熟悉 Storm 分布式实时处理系统,了解 Storm 拓扑结构和工作原理
6.熟悉 Kafka 的使用,了解相关的底层实现原理和使用业务场景
7.熟悉 Spark 内存计算模型及 SparkRDD 和 SparkSQL ,SparkStreaming的API开发
8.熟悉 Spring、SpringMVC、MyBatis、Shiro、SpringCloud、Kettle、Jekins等开源框架的使用
9.熟悉 Maven 的使用,能够快速解决项目jar依赖冲突等等项目构建、打包问题
10.熟练掌握CDH和HDP集群搭建流程以及快速使用、管理
11.熟悉移动端开发流程,独立完成移动端架构设计以及业务功能实现,产品上线、维护
12.熟练使用eclipse,idea,androidstudio等开发ide,熟练使用svn,git版本管理工具
13.有过Kettle大量数据迁移实战经验,接口SQL优化经验
14.了解高并发编程思想及实现,对jvm有一定的了解
15.了解Python语言,了解面向函数编程思想,能够使用PySpider框架完成日常数据爬取需求
项目名称:某电商平台数仓项目
相关技术:Kafka+Flume+HDFS+Hive+Sqoop+Azkaban+Mysql+Echart+Druid
项目描述:通过采集用户行为数据(埋点用户操作日志)以及平台业务数据(myslq中业务数据),分层搭建数仓,对数据进行清洗、分组、合并、统计等ETL操作,最终数据服务于企业报表系统、用户画像系统、推荐系统
业务流程:
1.数据采集平台搭建,file-flume-kafka kafka-hdfs
2.实现用户行为数仓分层搭建(基于ODS、DWD、DWS、ADS四层分层架构),统计用户日活、新增、留存、回流、沉默、流失、连续n周活跃、最近7天连续3天活跃等主题数据
3.实现业务数据数仓分层搭建(基于ODS、DWD、DWS、ADS四层分层架构),建立用户行为宽表,用户购买商品明细宽表,统计GMV、转化率、用户行为漏斗分析、品牌复购率等指标,制作订单拉链表
4.Sqoop导出指标到mysql中