猿急送>

南京后端兼职程序员

ID：190813

陈鹏奇

大数据开发工程师

公司信息：
江苏鸿程大数据技术与应用研究院

工作经验：
2年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
南京
全区

技术能力

1.熟悉Java、Python等开发语言，了解其多线程机制以及常用API；
2.熟悉Hadoop框架，熟练使用HDFS分布式文件系统的存储机制及其读写删流程，了解MR的shuffle过程、分区机制、排序机制、了解HDFS的常用API；
3.熟练使用Alluxio分布式内存存储系统，掌握其底层存储原理以及其应用场景，熟悉其分布式集群的部署；
4.熟悉HBase数据库，了解其底层存储原理和基本API的使用；
5.熟悉Spark框架，了解SparkCore的常用算子功能及其应用场景；
6.熟悉zookeeper 的使用，了解其工作原理，会分布式集群的搭建；
7.熟悉 Hive 技术，能使用其管理 HDFS 上的数据，并进行相关的 ETL 操作，了解其 UDF 机制，了解其部分优化技术；
8.熟悉YARN资源调度框架，了解其工作原理及调度策略的配置，尤其熟悉公平调度器的配置及使用；
熟练使用Linux系统，了解其常用操作命令以及可以编写一些基本的Shell脚本

项目经验

项目1：交互式统一大数据编程计算平台
所属公司：江苏鸿程大数据技术与应用研究院
项目描述：该平台是一款面向教育行业的一站式大数据综合编程平台，平台集成了Hadoop、Spark、HBase、Hive、Alluxio、Presto这些常用的大数据生态组件，用户可以直接在平台上操作这些组件，并且可以进行在线编程、运行、调试结果等，并且平台有一套完善的用户权限管理系统、集群监控功能以及在线实验模块和作业的发布管理等，用户可以在该平台上进行一整套的教学功能。平台的架构为：底层大数据集群、后端Flask搭建的服务器、前端Vue搭建的服务器、以及MySQL数据库。
主要工作内容：负责平台整体的架构设计与接口文件的编写、负责所有底层分布式集群的安装配置与部署、负责后端Flask服务器的部分方法的编写，编程语言为Python、负责前端部分页面的编写、负责平台Spark、Alluxio、HBase部分所有试验的编写。

项目2：构建基于Alluxio的数据中间层
所属公司：江苏鸿程大数据技术与应用研究院
项目描述：该项目是中国石化存储系统优化项目的一个子项目，该存储系统是基于HDFS、HBase、Oracle部署的，其中HDFS主要存储离线批处理业务的数据以及部分交互式业务的数据，HBase和Oracle分别存储交互式业务的数据和所有的元数据，数据体是以立方体形式存储的，但是目前在交互式场景下，数据量在200G以上时，读取性能达不到要求。在此基础上我们引入了Alluxio分布式内存存储系统，以内存的速度读数据，使得性能大大提升；同时为了兼容原有的系统架构，我们在不改变客户端的情况下，设计开发了一套gRPC通信系统，既可以与原客户端无缝兼容，也使得数据的读取都有本地性，最后使得性能提升了约30%。