精通Hadoop,Zookeeper,Hbase,Hive,Spark,Flink等大数据框架
对大数据框架的源码实现有一定的研究。
熟悉流批处理。
数据库:使用过 Hbase,Redis,Kudu,Mysql,MongoDB 。
项目一:
使用 SparkSQL整合 Kudu实现对广告业务 数据分析
工作内容: 使用 SparkSQL将离线数据进行 ETL处理,将处理好的数据输出到 Kudu 中,后面根据业务需要对 Kudu的数据使用 SparkSQL来建表分析。 主要进行:ETL,省份地市统计,地域分布情况统计, APP分布情况统计。
项目二:
使用 Spark对某网站数据进行离线和实时处理
项目简介:
离线项目: 使用 Spark对某网站用户行为日志进行 ETL处理,处理 结果落地 在 HBase,并使用 Spark对接 HBase存储的日 志数据进行统计分析 实现功能: 各地区访问量统计分析 客户端访问分布情况统计分析
实时项目:
使用 SparkStreaming和 Redis的整合完成某网站订单 数据实时 统计分析 实现功能: 实时统计每天的总订单数 实时统计每天的总订单金额