◆熟练java 语言编程,有良好的编码习惯,能够基于常用的SSH,SSM框架进行web开发
◆熟练Python语言编程,能够基于Django 框架进行web开发
◆熟练scala开发spark
◆熟练CDH集群搭建,维护
◆数仓建设,ETL开发,熟练使用相关技术(hive,hbase,kudu,es,spark,impala,phoeni x等大数据相关框架)
◆常用数据库熟练使用(oracle,postgresql),搭建及使用mysql,neo4j,tidb
1、报表平台迁移项目
项目背景:公司原先的报表系统的数据清洗都是基于oracle一体机,现数据量激增导致数据清洗 缓慢,且存储压力大(主要是扩容困难)
项目实施:采用新搭建的大数据平台,完成报表数据的数据清洗计算部分,再重新推回原报表数据 库,从而减轻计算压力,另将历史数据同步到大数据集群,开放hue分用户分资源查询,减轻数据 库存储压力
2、实时看板
基于GG链路实时同步Oracle数据到Hbase存储,并利用java 的quartz框架定时调度Phoeni x,实现hbase表的快速join查询,将结果存入Hbase,通过MVC框架实现手机端以及大屏版的两种交互式查询,以满足业务的实时业绩查看以及坐席任务监控的需 求
3、关系图谱项目
项目背景:风控部门配合公安部的经侦相关部门完成对犯罪团伙的锁定以及定位等 项目实施:使用hive 清洗交易信息,得到点和关系两张表数据,采用hbase存储所有的点信息, 利用rowkey查询迅速在大数据量的情况下,快速定位点信息,使用图数据库neo4j存储关系图, 并做深度查询,后期使用graphframe计算相关图计算指标,最后用Django 制作web交 互,echarts图形展示
4、自主项目EDS开发
一套基于Python的Django 框架开发,只需简单页面配置就可完成数据从RDBMS数据库,多模 式下定时双向同步到hadoop的ETL工具,同时可以调度任意自定义脚本,以及任务的修改查询监控等
项目描述: 项目背景:公司原先的报表系统的数据清洗都是基于oracle一体机,现数据量激增导致数据清洗 缓慢,且存储压力大(主要是扩容困难) 项目实施:采用新搭建的大数据平台,完成报表数据的数据清洗计算部分,再重新推回原报表数据 库,从而减轻计算压力,另将历史数据同步到大
项目描述: 一套基于Python的Django 框架开发,只需简单页面配置就可完成数据从RDBMS数据库,多模 式下定时双向同步到hadoop的ETL工具,任意shell脚本定时调度,以及任务的修改查询监控等 责任描述: 1、技术框架的选型 2、产品的原型设计