1. 精通 Linux 系统的基本命令,能使用 Shell 编程完成日常的脚本;
2. 熟悉 Hadoop 技术体系架构,熟悉MR 编程,熟悉 HDFS 的读写流程,熟悉 MapReduce 的 Shuffle 过程,Yarn 的job 提交流程和调度器,Hadoop的优化;
3. 理解 Hive 的架构,熟练使用 Hive Sql 的窗口函数,自定义UDF,UDTF 函数,了解 Hive优化 ;
4. 理解 Zookeeper 的选举机制,熟悉Zookeeper 常用命令;
5. 理解 Fume 的组成,事务,拦截器,选择器,监控器,Flume 的优化;
6. 熟悉 Kafka 的架构,ISR 副本同步队列,分区分配策略,Kafka的工作流程和文件存储机制 ,
kafka 事务,kafka 幂等性,了解 kafka 参数优化;
7. 了解 Hbase 的架构原理,读写流程,Rowkey 设计原则,能够使用 Phoenix 去查询 Hbase
的数据,创 建二级索引,了解布隆过滤器原理;
8.熟练使用Redis 数据库,理解 Redis 的持久化,了解主从复制原理,搭建 Redis 集群;
9.理解Sqoop的工作机制,熟练使用 Sqoop 导入导出数据;
10.熟练使用 azkaban 任务调度,熟悉Oozie的任务调度;
11.简单使用Kettle 清洗数据,简单使用Impala 即时查询 Hive 数据库;
12.熟悉常用的基础排序,快速排序,归并排序,二分法查找和线性查找等;
13.熟悉 Elasticsearch 和 kibana的简单使用;
14.理解Spark Yarn的Cluster模式提交流程,熟练使用Spark的转换算子和行动算子完成日常的需求分析,熟练使用SparkSql 查询语言, SparkSql 中RDD、DS 和 DF 的区别与联系,了解 Sparkstreaming 的窗口原理了解 Sparkstreaming 的性能调优;
15.了解 Flink 基础,Flink的时间语义与Wartermark,熟悉 Yarn Session模式提交任务流程,Flink 常用的算子与Window的操作;
熟悉CDH版本的Hadoop集群数仓搭建,熟悉Kerberos用户认证和Sentry 权限管理
1.数据采集 200多个不同来源业务库的数据采集工作,通过开发的框架,采用airflow调度每天定时任务采集
2.数仓中心 模型设计和特征开发,根据风控需求特征开发