猿急送>

北京后端兼职程序员

ID：328419

Tr1stan

大数据工程师

公司信息：
领创集团

工作经验：
3年

兼职日薪：
700元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
北京
丰台

技术能力

 熟悉 Hadoop 分布式系统，对 HDFS 架构和读写流程、DN 工作机制、MapReduce 任务的切片机
制和 Shuffe 机制，Yarn 工作机制，能够独立搭建 Hadoop 集群运行环境，了解 Hadoop 集群的参数调优
 熟悉阿里云 DataWork、MaxCompute 的一站式数仓开发全流程
 熟悉 Linux 开发环境，熟悉常用 Linux 的操作命令、复杂的 Shell 脚本编写
 熟悉使用 DolphinScheduler 调度器，Shell 脚本、SQL 任务工作流编辑，参数传递
 熟悉 Java、Scala 开发语言，有良好的面向对象编程和函数式编程功底
 熟悉使用 Flume 搭建日志采集系统，熟悉 Flume 三大组件（Source、Channel、Sink）的作用，能
够自定义拦截器和使用 Channel 选择器
 熟悉掌握 Kafka 的基本组成、集群部署以及参数调优，有通过 Kafka 处理实时数据的经验
 熟悉掌握 Hive 的基本架构，熟悉 Hive 的常用函数，熟练使用 Hive 进行海量数据的查询分析，熟悉
Hive 调优
 熟悉掌握 Spark，能够使用 SparkCore、SparkSQL 处理离线数据，理解 Spark 的任务提交流程、
Spark 的任务切分，Spark 持久化的特性
 熟悉 Flink 框架的 API 使用，了解 DataStreamAPI、Watermark 机制、两阶段提交，能够使用 Flink
对流式数据进行分析处理
 熟悉 HBase 的基本架构、存储原则以及 RowKey 的设计原则，HBase 的读写流程，了解 HBase 的
优化
 熟悉 Zookeeper 的基本架构、半数选举机制，会使用 Zookeeper 客户端的常用操作
 熟悉使用 DataX、Sqoop、DolphinScheduler，完成 HDFS 与数据源之间数据的导入导出
 熟悉使用工作流任务调度器 Azkaban 的使用流程，以及任务挂掉后的解决方案

项目经验

项目一
☆ 项目名称 : 六棱镜离线数仓项目及 Dass 项目
☆ 技术架构: Mysql + MangDB + DataX + MaxWell + DataWorks + MaxCompute + DS +
Linux + ES + Sftp + MinIO + Java
☆ 项目描述:本项目是基于使用阿里云提供商业 DataWorks 的一站式数仓开发平台构建的离线
项目，离线数仓分为原始数据层（ODS）、数据明细层（DWD）、数据模型层（DWM）、数据
服务层（ADS）这四层。
目的是根据专利分析师的需求，将处理好的数据，按照数仓建模理论分层构建，提供于 PatNavi
产品的中文专利和企业数据支撑，为各个目标客户提供专利数据分析报告，同时也处理好的定制
化数据按照客户需求输出。
☆ 责任描述：
1. 采集并 ETL 各种数据源的数据，如 Mysql、Xml 压缩包、Excel、Hive 等
2. 处理分析产品所需的数据，如专利数据（中文）、企业数据（代理、知本通、上
市公司、产业标引、行业赛道、专利风险预警）、客户数据（DaaS、算法）等
3. 数仓优化，从数据同步、数据规范、数据分层建模、计算资源分配、数据调度等
优化
4. Daas 项目开发运维
☆ 技术描述：
1. 基于 DataStudio 的数据集成模块，以向导、脚本模式配置编写数据输入输出同步任务，其
底层离线同步使用 DataX，将数据输入输出到 Mysql、Hive、MongoDB、ES。
2. 基于 DataStudio 的数据开发模块，以 Sql 形式完成企业数据清洗，同时分层以便数据逻辑
清晰复用，提高计算效率，提高数据高价值，最终分析产出结果，为专利分析人员提供支持，以
满足客户需求。
3. 按照 Daas 客户要求主要使用 Java、DS 和 Shell 将定制化数据输出到 MinIO、Sftp 和客户
目标库。
4. 使用 Java 和 Shell 处理全量 HBase 中的历史数据和维护处理定期国家知识产权局上传的中
文专利 xml 格式数据压缩包：备份、解压、分析，更新至各个产品数据库，最终完成产品数据的
更新。

项目二
☆ 项目名称 : Ginee 离线数仓项目
☆ 技术架构: Mysql + MangDB + DataX + MaxWell + DataWorks + MaxCompute +
Tableau
☆ 项目描述:本项目是基于使用阿里云提供商业 DataWorks 的一站式数仓开发平台构建的离线
项目，离线数仓分为原始数据层（ODS）、数据明细层（DWD）、数据模型层（DWM）、数据
服务层（ADS）这四层。
目的是分析出的数据，辅助数分产品经理、数据分析师以及管理人员分析产品情况，渠道分析，
并对产品、渠道以及公司的战略和业务进行优化。最终达到用大数据技术来帮助公司提升业绩、
经营额和市场占有率。
☆ 责任描述：
1. 采集并 ETL 各种数据源的数据，如 Mysql、MongoDB、LogHub 等
2. 计算分析各部门所需的数据，如 DMP 数据、ERP 数据、画像数据等
3. 数仓优化，从数据同步、数据规范、数据分层建模、计算资源分配、数据调度等
优化
4. 数仓运维，任务报警、资源调度、数据质量保证等
☆ 技术描述：
1. 基于 DataStudio 的数据集成模块，以向导、脚本模式配置编写数据输入输出同步任务，其
底层离线同步使用 DataX、实时同步使用 MaxWell，完成周期（天、时级别）、实时的数据同步
任务，极大提高时效性，应对各种临时性的数据采集
2. 基于 DataStudio 的数据开发模块，以 sql 形式完成数据清洗，同时分层以便数据逻辑清晰
复用，提高计算效率，提高数据高价值，最终分析产出结果，为数据分析人员提供支持
3. 运维中心 Web 界面，配置监控规则，对资源使用、任务调度等故障监控报警，及时通知任
务责任人，对慢实例任务分析原因，制定解决方案，补数据操作等，同时对数据质量监控，避免
脏数据、无效数据产生。
4. 从数据同步、存储、计算等角度，对数仓进行全方位的优化，缩减同步时间、降低计算和存
储费用；规范人员的权限范围，避免误操作，对误删数据进行补救，保证数据的高可靠性；建立
数仓规范文档