1、熟练使用大数据相关的技术,CDH6.0.1大数据集群管理平台 、Spark2.2.0、Kafka2.2.0、debezium1.0.3、Hadoop3.0.0、hive2.1.1、hbase2.0.0、kylin2.1.0、oozie5.0.0、hue 4、sqoop1、OGG、elasticsearch7.2.0等。
2、熟练使用hive udf,spark udf。
3、熟练使用Java ,scala面向对象编程,良好地规范代码编写习惯。
4、熟练使用shell 脚本。
5、熟练运用 JUnit,Debug 进行程序调试。
6、熟练运用标准 SQL 语句,熟悉 Oracle、Mysql 数据库 。
7、熟练使用 Maven,Git,Sbt,IDEA等工具。
1、事例1
项目名称:伯图数据-集团商业分析模块
项目时间:2017年12月1日~2018年6月26日
项目职责:参与伯图数据-商业模块,数据采集、清洗等Spark ETL工作。
项目成果:伯图数据-商业分析PC端和APP
项目使用技术:spark2.2.0、hbase2.0、hive2.1.1、kylin2.1.0、Java1.8、OGG、
scala2.11.8、shell脚本以及定时任务设置。
项目技术难点:
1.集团内各个子公司重叠客户合并与分类。
2.客户分析模块 cube查询速度延时大,针对cube相关参数进行优化。提升查询速度。
将查询速度控制在1s内。
项目介绍:伯图数据-集团商业分析模块,数据分析及ETL
1.销售模块-KPI分析
2.销售模块-客户分析
3.销售模块-产品分析
4.销售模块-竞品分析
5.库存模块-库存查询
6.库存模块-库存预警
7.库存模块-库存监控
1、事例2
项目名称:伯图数据-工业分析模块
项目时间:2018年5月8日~2018年9月20日
项目职责:独立负责数据实时采集和spark ETL
项目成果:伯图数据-工业分析模块PC端
项目使用技术:spark2.2.0、hbase2.0、hive2.1.1、kylin2.1.0、Java1.8、OGG
scala2.11.8、oozie5设置定时任务。
项目技术难点:
1.前端echarts图表展示需要显示补零数据,导致图表数据显示延时。
解决办法:在后台ETL对数据进行补零,用于填充前端图表框架。
2.工业分析模块,销售报表由于数据量大,sql查询26小时后才能生成报表。
解决办法:用spark 对数据进行处理,并将数据存储至 Kylin
3.OGG 在采集数据过程中由于数据量大,进程挂断。
解决办法:修改优化OGG内存使用,trandata由批量添加改为单独添加。
4.OGG 同步全库数据时,hbase每张表占用一个region。影响hbase读写性能。
解决办法:1减少业务表的数量,取核心业务表。2.使用hbase On hive 模式设置读写分离。
项目介绍:伯图数据-工业分析,主要对供应链销售和库存情况进行分析。
使用大数据技术对数据进行采取,分析,清洗,转换和展示。
Pc端主要包含以下功能:
1.月销售回款情况分析。
2.体制内和体制外各子公司回款情况分析。
3.各子公司月发货情况分析。
4.各子公司发货同期对比。
5.各子公司发货同期环比。
6.各个子公司每日发货统计。
7.销售回款月分析。
8.各子公司库存每日分析。
9.库存产品一年半效期分析。
10.各子公司产品近效期分析。
2、事例3
项目名称:伯图大数据-整体数仓
项目时间:2019年3月01日~2020年03月10日
项目职责:配合技术经理,负责整体数仓开发的进度控制与任务分配。
项目成果:统一的数仓,数据结构
项目使用技术:spark2.2.0、hbase2.0、hive2.1.1、kylin2.1.0、Java1.8、OGG、
scala2.11.8、shell脚本以及定时任务设置。
项目技术难点:
1.数据采集:各个子公司使用的系统平台未统一,使用的数据库和操作系统不同。数据库有mysql,oracle,sqlserver等。
2.各个公司的业务类型统一,以及数据结构的统一。
3.统一销售、采购和库存等业务流程,构建统一的数据模型。
4.存在个别公司,使用的sqlserver 表字段名为中文,无法使用hive On hbase 模式设置读写分离。
项目介绍:涉及7家药品销售商业公司和5家药品制造工业公司的异构数据整合。
将各个商业公司异构数据经过采集、分析、清洗。形成统一、规范化的数据结构。
统一数仓主要包含功能,销售流程、采购流程以及库存模块的数据规范统一。
2、事例3 项目名称:伯图大数据-整体数仓 项目时间:2019年3月01日~2020年03月10日 项目职责:配合技术经理,负责整体数仓开发的进度控制与任务分配。 项目成果:统一的数仓,数据结构 项目使用技术:spark2.2.0、hbase2.0、hive2.1.1、
1.实时采集关系型数据库,存储至hadoop. 2.使用spark 对数据进行ETL处理,完成后将数据存储在kylin 中. 给前端进行查询已经数据展示