1.熟悉Linux开发环境,熟悉常用Linux操作命令,简单Shell脚本编程;
2.熟悉Hadoop分布式系统,对HDFS架构和读写流程、Yarn的工作机制和作业提交流程、MapReduce任务的切片机制和shuffle机制有较好的理解,能够独立搭建Hadoop集群,了解Hadoop集群的常见错误以及解决方案;
3.熟悉Zookeeper基本架构,了解Zookeeper中Leader的选举机制,熟悉Zookeeper常用命令;
4.熟悉Kafka的基本架构,集群部署以及参数优化,有使用Kafka处理实时数据的经验;
5.熟悉掌握Hive的基本架构,熟练使用HQL处理业务,熟悉Hive中的常见函数,了解Hive的优化。可以自定义UDF和UDTF函数;
6.熟悉Hbase的基本架构和底层存储原理,了解RowKey的设计,能够配合Phoenix实现类SQL查询;
7.熟悉基于内存的数据分析引擎Spark,包含Spark的部署、参数提交,Job提交流程以及Stage和Task的划分,SparkCore和RDD算子操作、Spark优化和源码等;
8.熟悉Flink框架API的使用,了解DataStreamAPI,Watermark,两阶段提交,布隆过滤器的实现原理,能够使用Flink进行实时数据的处理。
9.熟悉大数据常用语言Java和Scala、python可以使用Java/Scala/python。
项目名称:金融营销、流量系统
开发工具:嘀嘀自研工具
项目描述:国际化金融自去年从国内拆分后,数据混乱,数据质量差的问题持续存在,在金融营销方面,如何整合出行外卖数据,规范化金融营销支付和信贷数据,需要数仓方面做一整体模型,提高数据的易用性,便于数据的维护。
个人职责:
1.数据采集:金融独立数据采集,Mysql业务数据和日志数据。
2.数据清洗:负责将小时数据转化为不同国家时区的ods天表中,对表中数据简单处理
3.模型设计:数仓模型设计、开发
4.任务优化:国际化项目资源紧缺,而且不同国家存在时差,为保证数据运行时常合理,在巴西、墨西哥南非等国家均在合理时间内产出,需要对Spark任务进行代码+参数优化
5.指标统计:关键指标计算用户首末次,PV\UV,gmv,burn等关键指标计算
6.数据调研:国家化出行数据、国际化外卖数据调研
7.埋点设计:支付侧埋点的设计和维护,流量底表的建设。
项目二
项目名称:出行营销系统建设
开发工具:数据梦工厂(同步中心+开发中心+调度中心+质量系统+报警系统)+数易(BI报表)
软件架构:MySQL、DataX、cancel、LogAgent、kafka、hive、waterdrop、clickhouse
项目描述:
1.国际化出行业务在巴西、墨西哥等20多个国家逐渐铺展开来,业务单量逐渐提升到一个不可忽视的规模,但是司机活动的配置并没有一定的规范,19种活动类型奖励发放混乱,为了提高钱效,配合公司实现降本增效的目的,开始建设司机营销看板,看清在线时常、接单数、burn、gmv、roi等关键指标,为前线运营合理配置活动提供数据支持
2.乘客活动在之前出行数仓没有建设,数据混乱,口径不清晰,为了前线运营看清活动效果,推动乘客增长,出行数仓建设乘客营销看板,看清券发放数、呼单数、burn、gmv、roi等关键指标
3.国际化出行业务在初具雏形后,运营团队和数据分析团队希望看清不同触达方式的转化效果,建设司机+乘客触达效果看板,构建触达效果转化漏斗。
个人职责:
1.数据采集:负责将日志数据和MySQL业务数据采集入库到ods小时表中
2.数据清洗:负责将小时数据转化为不同国家时区的ods天表中,对表中数据简单处理
3.模型设计:负责设计数仓模型,保证活动奖励链路中表的合理和可复用
4.任务优化:国际化项目资源紧缺,而且不同国家存在时差,为保证数据运行时常合理,在巴西、墨西哥南非等国家均在合理时间内产出,需要对Spark任务进行代码+参数优化
5.指标统计:补贴金额、券发放金额、券核销、接单数、播单数、司机/乘客接单前/后取消、gmv、司机在线时长、roi、触达漏斗指标等
6.质量监控:负责司乘营销业务表的质量监控和答疑,配置看板基线
项目三
项目名称:乘客端外卖导流系统分析
开发工具:数据梦工厂(同步中心+开发中心+调度中心+质量系统+报警系统)+数易(BI报表)
软件架构:MySQL、DataX、cancel、LogAgent、kafka、hive、clickhouse
项目描述:国际化出行的埋点暂时还不清晰,但是外卖团队成立的时间比较久,埋点工作已经基本完成,此时当地运营提出想要知道由出行端到外卖的转化漏斗,出行数仓团队开始与外卖团队交流,希望外卖团队增加新埋点,由出行数仓团队接入流量数据,看清出行到外卖的转化漏斗效果。
个人职责:
1.数据采集:负责将日志数据和MySQL业务数据采集入库到ods小时表中
2.数据清洗:负责将小时数据转化为不同国家时区的ods天表中,对表中数据简单处理
3.模型设计:负责设计数仓模型,保证活动奖励链路中表的合理和可复用
4.任务优化:国际化项目资源紧缺,而且不同国家存在时差,为保证数据运行时常合理,在巴西、墨西哥南非等国家均在合理时间内产出,需要对Spark任务进行代码+参数优化
5.指标统计:不同条件下的UV、PV
6.质量监控:负责司乘营销业务表的质量监控和答疑,配置看板基线