1.熟悉Java、Python等开发语言,了解其多线程机制以及常用API;
2.熟悉Hadoop框架,熟练使用HDFS分布式文件系统的存储机制及其读写删流程,了解MR的shuffle过程、分区机制、排序机制、了解HDFS的常用API;
3.熟练使用Alluxio分布式内存存储系统,掌握其底层存储原理以及其应用场景,熟悉其分布式集群的部署;
4.熟悉HBase数据库,了解其底层存储原理和基本API的使用;
5.熟悉Spark框架,了解SparkCore的常用算子功能及其应用场景;
6.熟悉zookeeper 的使用,了解其工作原理,会分布式集群的搭建;
7.熟悉 Hive 技术,能使用其管理 HDFS 上的数据,并进行相关的 ETL 操作,了解其 UDF 机制,了解其部分优化技术;
8.熟悉YARN资源调度框架,了解其工作原理及调度策略的配置,尤其熟悉公平调度器的配置及使用;
熟练使用Linux系统,了解其常用操作命令以及可以编写一些基本的Shell脚本
项目1:交互式统一大数据编程计算平台
所属公司:江苏鸿程大数据技术与应用研究院
项目描述:该平台是一款面向教育行业的一站式大数据综合编程平台,平台集成了Hadoop、Spark、HBase、Hive、Alluxio、Presto这些常用的大数据生态组件,用户可以直接在平台上操作这些组件,并且可以进行在线编程、运行、调试结果等,并且平台有一套完善的用户权限管理系统、集群监控功能以及在线实验模块和作业的发布管理等,用户可以在该平台上进行一整套的教学功能。平台的架构为:底层大数据集群、后端Flask搭建的服务器、前端Vue搭建的服务器、以及MySQL数据库。
主要工作内容:负责平台整体的架构设计与接口文件的编写、负责所有底层分布式集群的安装配置与部署、负责后端Flask服务器的部分方法的编写,编程语言为Python、 负责前端部分页面的编写、负责平台Spark、Alluxio、HBase部分所有试验的编写。
项目2:构建基于Alluxio的数据中间层
所属公司:江苏鸿程大数据技术与应用研究院
项目描述:该项目是中国石化存储系统优化项目的一个子项目,该存储系统是基于HDFS、HBase、Oracle部署的,其中HDFS主要存储离线批处理业务的数据以及部分交互式业务的数据,HBase和Oracle分别存储交互式业务的数据和所有的元数据,数据体是以立方体形式存储的,但是目前在交互式场景下,数据量在200G以上时,读取性能达不到要求。在此基础上我们引入了Alluxio分布式内存存储系统,以内存的速度读数据,使得性能大大提升;同时为了兼容原有的系统架构,我们在不改变客户端的情况下,设计开发了一套gRPC通信系统,既可以与原客户端无缝兼容,也使得数据的读取都有本地性,最后使得性能提升了约30%。