1.熟悉面向对象的思想,掌握java基础知识
2.熟悉scala语言和思想
3.熟悉 linux 的命令常用开发工具的安装和操作,能在linux系统下搭建开发环境
4.熟悉hdfs分布式文件系统存储结构和高可用原理,hadoop mapreduce计算框架编程,对yarn的资源调度,作业监控有一定认识,熟悉flume,kafka等日志收集,分发框架的使用
5.熟悉Hadoop,Spark/Sparkstreaming,Hive,Hbase,kafka,flink等大数据生态技术
项目一:数据采集系统
项目名称:数据集成平台
开发时间/开发周期:2021.2-至今
使用技术: Linux+nifi
对于多源异构数据进行数据采集和清洗,负责选型以及开发工作,底层采用nifi进行数据采集,web端通过用户配置数据源,以及清洗脚本,启动底层nifi任务流,进行端到端数据操作,将数据推送不同业务库,支持传统rdms,http,nosql数据库的采集。
项目二:数据中台(数据汇聚)产品
项目名称:数据汇聚2.0平台
开发时间/开发周期:2019.04-2020.7
使用技术: Linux+Spark+Sparkstreaming+Drools+Kafka+Zookeeper+Hive
产品描述:
针对数据来源的库,数据需要推送的库不同,数据多数据情况比较杂乱,字段不标准,或者错误。开发数据汇聚产品。主要负责部分开发数据底层处理包,针对不同数据源的数据通过Sparkstreaming实时、Spark批处理进行数据采集,采集对数据进行标准化操作。关联,回填,去重,错误数据备份过滤等操作,根据上层业务系统需求,将数据推送到不同的数据库中入Elasticsearch、Hbase、Hive等。
责任描述:
1. 根据任务配置使用Sparkstreaming实现底层jar包跑数程序,实现数据到数据的流转
2. 使用drools模板,进行规则开发
3. 大数据和web端的消息发送,包括日志,统计类信息
4. 将实时数据和上层应用系统对接
参与技术选型和新技术研究