掌握Java,Scala语言编程;
理解hadoop的分布式文件系统,掌握mapreduce原理,实现编码;
理解spark工作机制,掌握spark任务的执行流程;
掌握kafka、flume数据采集工具的原理,实现流式数据的过滤和分析;
熟练使用sqoop工具,实现非关系型数据库与关系型数据库表数据互导;
掌握redis内存数据库的基本原理,实现数据的毫秒查询;
熟练使用Linux操作系统,编写shell脚本;
平台数据离线分析
项目描述: 软件环境:Hadoop、hbase、hive、mysql
本项目基于在线电商运营平台。通过JS埋点,收集PC端的数据并记录到Nginx集群中。再通过MR将HDFS中的数据整合到HBase中,以便之后进行高效 的操作。之后根据不同的KPI指标编写MR程序,将结果数据保存到MySql中。本项目也使用HIVE处理HBase中的数据,将结果通过Sqoop保存到 Mysql中。
责任描述:1.ETL中的HBase数据导入;
2.MR项目的搭建;
3.负责指标代码的编写;
网站数据实时离线综合分析
项目描述: 软件环境:flume、kafk、HDFS、hive、Spark、mysql
通过分布式HADOOP集群处理网站产生的大量日志。使用FLUME采集数据,将数据导入到KAFKA集群或者hbase数据库中。实现相应的离线日志和实时数据的显示,通过数据展示,运营人员能够更直观的对产品进行定位和营销策略的制定
责任描述: 1.将数据通过flume存储到
2.将实时数据通过flume存储到kafka
3.用spark数据进行预处理分析
4.通过Echars实现数据展示
广告营销系统
项目描述: 软件环境:flume、kafk、HDFS、hive、Spark、mysql
基于用户在平台内部的注册信息、浏览信息、历史购买信息等对用户进行画像运营人员能够更直观的对产品进行定位和营销策略的制定
责任描述:1.基础数据收集
2.数据ETL
3.用户行为建模
4.构建画像