1、 熟悉Hive,熟悉Hql、窗口函数、自定义函数、拉链表,熟悉hive调优
2、 熟悉mysql,熟悉sql优化、索引优化、mvcc机制
3、 熟悉关系型数据库三范式建模方法论,熟悉数仓维度建模方法论
4、 熟悉Hadoop生态圈,熟练使用HDFS、Yarn等组件,熟悉MapReduce
5、 熟练使用SparkStreaming、SparkCore、SparkSQL进行实时和离线数据的指标统计,有一定的Spark调优经验,了解Spark内核和优化,熟练使用SparkGraphX图计算,熟悉SparkMLlib中的余弦相似度、朴素贝叶斯等算法
6、 熟悉常用的数据结构和算法
7、 熟悉阿里云DataWorks、MaxCompute的基本操作
8、 熟悉Flume
9、 熟练使用scala、python,了解java
10、熟悉Linux常用命令,熟练编写shell脚本
11、熟悉azkaban任务调度
12、熟悉sqoop,了解canal
13、了解Hbase、kafka、Flink、ElasticSearch、Zookeeper
14、了解关系型数据库Oracle和非关系型数据库Redis、MongoDB
三只松鼠门店报表重塑
项目描述:
投食店和联盟小店现有报表分析维度不完善,以及活动分析报表的缺失,导致部分日常报表仍需开发人员配合临时取数,业务花费大量时间整理分析数据,在原有报表整体基础之上,提供最细粒度的数据维度,重新排列组合,减少临时取数的频率提高人效。
使用的开发工具以及技术:
DataWorks、MaxCompute、PolarDB、MongoDB
责任描述:
1、负责门店报表重塑项目的数仓建模和开发工作
2、协助并完成其他各类技术研发任务
技术描述:
1、从上游关系型云数据库PolarDB中采用不同的同步策略,将投食店和小店相关数据同步到odps中。
2、本次报表实时模块改进:将原有的小时级别的调度周期全部停掉,改为dts实时同步,离线部分保持不变,凌晨三点更新前一天数据。
3、采用维度建模的方式搭建数据仓库,本次数仓主要分为ods,dwd,dws,dwt层,ods数据保持原貌建立分区,dwd采用星型模型,并且将商品品类、大区区域门店等维表进行维度退化,减少join减少shuffle提高性能,dws建宽表,按天统计本次报表的部分指标,dwt也是建宽表,按月进行更粗粒度的统计。
4、最后将数据导出到PolarDB和MongoDB中供报表系统使用,PolarDB结果表中要查询的字段建立索引,提高查询效率,品类模块涉及分页查询,优化sql,先查询主键然后使用主键关联查询相应字段,提升分页查询效率。