ID:328419

Tr1stan

大数据工程师

  • 公司信息:
  • 领创集团
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 700元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 北京
  • 丰台

技术能力

 熟悉 Hadoop 分布式系统,对 HDFS 架构和读写流程、DN 工作机制、MapReduce 任务的切片机
制和 Shuffe 机制,Yarn 工作机制,能够独立搭建 Hadoop 集群运行环境,了解 Hadoop 集群的参数调优
 熟悉阿里云 DataWork、MaxCompute 的一站式数仓开发全流程
 熟悉 Linux 开发环境,熟悉常用 Linux 的操作命令、复杂的 Shell 脚本编写
 熟悉使用 DolphinScheduler 调度器,Shell 脚本、SQL 任务工作流编辑,参数传递
 熟悉 Java、Scala 开发语言,有良好的面向对象编程和函数式编程功底
 熟悉使用 Flume 搭建日志采集系统,熟悉 Flume 三大组件(Source、Channel、Sink)的作用,能
够自定义拦截器和使用 Channel 选择器
 熟悉掌握 Kafka 的基本组成、集群部署以及参数调优,有通过 Kafka 处理实时数据的经验
 熟悉掌握 Hive 的基本架构,熟悉 Hive 的常用函数,熟练使用 Hive 进行海量数据的查询分析,熟悉
Hive 调优
 熟悉掌握 Spark,能够使用 SparkCore、SparkSQL 处理离线数据,理解 Spark 的任务提交流程、
Spark 的任务切分,Spark 持久化的特性
 熟悉 Flink 框架的 API 使用,了解 DataStreamAPI、Watermark 机制、两阶段提交,能够使用 Flink
对流式数据进行分析处理
 熟悉 HBase 的基本架构、存储原则以及 RowKey 的设计原则,HBase 的读写流程,了解 HBase 的
优化
 熟悉 Zookeeper 的基本架构、半数选举机制,会使用 Zookeeper 客户端的常用操作
 熟悉使用 DataX、Sqoop、DolphinScheduler,完成 HDFS 与数据源之间数据的导入导出
 熟悉使用工作流任务调度器 Azkaban 的使用流程,以及任务挂掉后的解决方案

项目经验

项目一
☆ 项目名称 : 六棱镜离线数仓项目及 Dass 项目
☆ 技术架构: Mysql + MangDB + DataX + MaxWell + DataWorks + MaxCompute + DS +
Linux + ES + Sftp + MinIO + Java
☆ 项目描述:本项目是基于使用阿里云提供商业 DataWorks 的一站式数仓开发平台构建的离线
项目,离线数仓分为原始数据层(ODS)、数据明细层(DWD)、数据模型层(DWM)、数据
服务层(ADS)这四层。
目的是根据专利分析师的需求,将处理好的数据,按照数仓建模理论分层构建,提供于 PatNavi
产品的中文专利和企业数据支撑,为各个目标客户提供专利数据分析报告,同时也处理好的定制
化数据按照客户需求输出。
☆ 责任描述:
1. 采集并 ETL 各种数据源的数据,如 Mysql、Xml 压缩包、Excel、Hive 等
2. 处理分析产品所需的数据,如专利数据(中文)、企业数据(代理、知本通、上
市公司、产业标引、行业赛道、专利风险预警)、客户数据(DaaS、算法)等
3. 数仓优化,从数据同步、数据规范、数据分层建模、计算资源分配、数据调度等
优化
4. Daas 项目开发运维
☆ 技术描述:
1. 基于 DataStudio 的数据集成模块,以向导、脚本模式配置编写数据输入输出同步任务,其
底层离线同步使用 DataX,将数据输入输出到 Mysql、Hive、MongoDB、ES。
2. 基于 DataStudio 的数据开发模块,以 Sql 形式完成企业数据清洗,同时分层以便数据逻辑
清晰复用,提高计算效率,提高数据高价值,最终分析产出结果,为专利分析人员提供支持,以
满足客户需求。
3. 按照 Daas 客户要求主要使用 Java、DS 和 Shell 将定制化数据输出到 MinIO、Sftp 和客户
目标库。
4. 使用 Java 和 Shell 处理全量 HBase 中的历史数据和维护处理定期国家知识产权局上传的中
文专利 xml 格式数据压缩包:备份、解压、分析,更新至各个产品数据库,最终完成产品数据的
更新。

项目二
☆ 项目名称 : Ginee 离线数仓项目
☆ 技术架构: Mysql + MangDB + DataX + MaxWell + DataWorks + MaxCompute +
Tableau
☆ 项目描述:本项目是基于使用阿里云提供商业 DataWorks 的一站式数仓开发平台构建的离线
项目,离线数仓分为原始数据层(ODS)、数据明细层(DWD)、数据模型层(DWM)、数据
服务层(ADS)这四层。
目的是分析出的数据,辅助数分产品经理、数据分析师以及管理人员分析产品情况,渠道分析,
并对产品、渠道以及公司的战略和业务进行优化。最终达到用大数据技术来帮助公司提升业绩、
经营额和市场占有率。
☆ 责任描述:
1. 采集并 ETL 各种数据源的数据,如 Mysql、MongoDB、LogHub 等
2. 计算分析各部门所需的数据,如 DMP 数据、ERP 数据、画像数据等
3. 数仓优化,从数据同步、数据规范、数据分层建模、计算资源分配、数据调度等
优化
4. 数仓运维,任务报警、资源调度、数据质量保证等
☆ 技术描述:
1. 基于 DataStudio 的数据集成模块,以向导、脚本模式配置编写数据输入输出同步任务,其
底层离线同步使用 DataX、实时同步使用 MaxWell,完成周期(天、时级别)、实时的数据同步
任务,极大提高时效性,应对各种临时性的数据采集
2. 基于 DataStudio 的数据开发模块,以 sql 形式完成数据清洗,同时分层以便数据逻辑清晰
复用,提高计算效率,提高数据高价值,最终分析产出结果,为数据分析人员提供支持
3. 运维中心 Web 界面,配置监控规则,对资源使用、任务调度等故障监控报警,及时通知任
务责任人,对慢实例任务分析原因,制定解决方案,补数据操作等,同时对数据质量监控,避免
脏数据、无效数据产生。
4. 从数据同步、存储、计算等角度,对数仓进行全方位的优化,缩减同步时间、降低计算和存
储费用;规范人员的权限范围,避免误操作,对误删数据进行补救,保证数据的高可靠性;建立
数仓规范文档

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服