1.具备扎实的Java基础,熟悉海量数据场景下分布式、多线程、高并发的数据处理
2.熟悉Hadoop生态,熟练应用sqoop、hdfs、hive、hbase等组件及cdh平台的部署运维
3.熟练掌握mapreduce、hql、udf、udfa等相关大数据开发计算
4.熟悉kylin、Phoenix等hbase二级缓存技术衍生框架
5.熟悉spark sql相关开发
6.熟练掌握ftp、redis、kafka、flume等开源项目,能够根据项目需求制定相应的技术框架或解决方案
7.熟悉Mongodb、ElasticSerch、Greenplum、TiDB等高性能数据库的应用开发
8.熟悉Mysql、oracle等RDBMS数据库应用开发
9.熟悉Spring boot、spring cloud相关组件的开发应用
10.熟悉Linux常用基本命令,并能编写简单的shell脚本
项目 :华云Pass平台(大数据中台产品)
项目描述:
华云Pass平台是集大数据资产管理,数仓建设,任务调度等功能为一体的大数据中台产品。通过友好的交互页面、拖拉拽等方式,快速构建大数据业务体系,支撑项目业务需求。是大数据普遍业务的抽象,避免了重复造轮子,提高项目开发效率。
责任描述:
1、平台的需求收集、整理,交互设计、原型图
2、技术选型及架构设计
3、核心代码开发
4、项目进度把控
技术描述:
1、前端使用友好的交互及拖拉拽等方式,快速构建业务需求
2、封装hdfs、hive、hbase等操作,以微服务接口的形式,作为用户交互与大数据存储计算建的中间层
3、封装azkaban相关接口,以微服务接口的形式,支撑底层数据计算的调度、业务拓扑的维护、状态及日志的查询等
项目 :BDDFA(电信云海量数据采集清洗产品)
项目描述:
bbdfa是为中国电信云公司开发的一套高性能、高可用、分布式etl产品。负责中国电信云公司所有数据的接入、转换工作,采集数据包括31省几十种数据,日增量数据近200TB。具有数据量大、数据种类多、业务复杂、时效性要求高、准确性要求等特点。
责任描述:
1、参与项目的需求收集、整理,以及技术选型、架构设计
2、核心代码开发
3、测试上线
4、版本迭代维护
技术描述:
1、系统主要分为接入和计算两个集群,通过zookeeper进行分布式协调。
2、二次开发apache ftp,组成ftp服务集群,作为统一的数据入口。ftp集群不进行拆包和业务计算,根据业务配置和集群负载情况,通过netty发送给数据计算集群。
3、二次开发flume,组成flume数据计算集群。作为计算中心,识别各类数据并拆包进行业务处理,处理逻辑包括数据的清洗、转换、补全等;并将处理好的数据按照业务逻辑配置输出hdfs和kafka。
4、为了防止海量数据传输过程中的网络波动等引起的异常情况,各集群及组件将日志记录到kafka,补传识别程序收集、整理、识别异常文件,进行回补。