熟悉 Hadoop 分布式系统,对 HDFS 架构和读写流程、DN 工作机制、MapReduce 任务的切片机
制和 Shuffe 机制,Yarn 工作机制,能够独立搭建 Hadoop 集群运行环境,了解 Hadoop 集群的参数调优
熟悉阿里云 DataWork、MaxCompute 的一站式数仓开发全流程
熟悉 Linux 开发环境,熟悉常用 Linux 的操作命令、复杂的 Shell 脚本编写
熟悉使用 DolphinScheduler 调度器,Shell 脚本、SQL 任务工作流编辑,参数传递
熟悉 Java、Scala 开发语言,有良好的面向对象编程和函数式编程功底
熟悉使用 Flume 搭建日志采集系统,熟悉 Flume 三大组件(Source、Channel、Sink)的作用,能
够自定义拦截器和使用 Channel 选择器
熟悉掌握 Kafka 的基本组成、集群部署以及参数调优,有通过 Kafka 处理实时数据的经验
熟悉掌握 Hive 的基本架构,熟悉 Hive 的常用函数,熟练使用 Hive 进行海量数据的查询分析,熟悉
Hive 调优
熟悉掌握 Spark,能够使用 SparkCore、SparkSQL 处理离线数据,理解 Spark 的任务提交流程、
Spark 的任务切分,Spark 持久化的特性
熟悉 Flink 框架的 API 使用,了解 DataStreamAPI、Watermark 机制、两阶段提交,能够使用 Flink
对流式数据进行分析处理
熟悉 HBase 的基本架构、存储原则以及 RowKey 的设计原则,HBase 的读写流程,了解 HBase 的
优化
熟悉 Zookeeper 的基本架构、半数选举机制,会使用 Zookeeper 客户端的常用操作
熟悉使用 DataX、Sqoop、DolphinScheduler,完成 HDFS 与数据源之间数据的导入导出
熟悉使用工作流任务调度器 Azkaban 的使用流程,以及任务挂掉后的解决方案
项目一
☆ 项目名称 : 六棱镜离线数仓项目及 Dass 项目
☆ 技术架构: Mysql + MangDB + DataX + MaxWell + DataWorks + MaxCompute + DS +
Linux + ES + Sftp + MinIO + Java
☆ 项目描述:本项目是基于使用阿里云提供商业 DataWorks 的一站式数仓开发平台构建的离线
项目,离线数仓分为原始数据层(ODS)、数据明细层(DWD)、数据模型层(DWM)、数据
服务层(ADS)这四层。
目的是根据专利分析师的需求,将处理好的数据,按照数仓建模理论分层构建,提供于 PatNavi
产品的中文专利和企业数据支撑,为各个目标客户提供专利数据分析报告,同时也处理好的定制
化数据按照客户需求输出。
☆ 责任描述:
1. 采集并 ETL 各种数据源的数据,如 Mysql、Xml 压缩包、Excel、Hive 等
2. 处理分析产品所需的数据,如专利数据(中文)、企业数据(代理、知本通、上
市公司、产业标引、行业赛道、专利风险预警)、客户数据(DaaS、算法)等
3. 数仓优化,从数据同步、数据规范、数据分层建模、计算资源分配、数据调度等
优化
4. Daas 项目开发运维
☆ 技术描述:
1. 基于 DataStudio 的数据集成模块,以向导、脚本模式配置编写数据输入输出同步任务,其
底层离线同步使用 DataX,将数据输入输出到 Mysql、Hive、MongoDB、ES。
2. 基于 DataStudio 的数据开发模块,以 Sql 形式完成企业数据清洗,同时分层以便数据逻辑
清晰复用,提高计算效率,提高数据高价值,最终分析产出结果,为专利分析人员提供支持,以
满足客户需求。
3. 按照 Daas 客户要求主要使用 Java、DS 和 Shell 将定制化数据输出到 MinIO、Sftp 和客户
目标库。
4. 使用 Java 和 Shell 处理全量 HBase 中的历史数据和维护处理定期国家知识产权局上传的中
文专利 xml 格式数据压缩包:备份、解压、分析,更新至各个产品数据库,最终完成产品数据的
更新。
项目二
☆ 项目名称 : Ginee 离线数仓项目
☆ 技术架构: Mysql + MangDB + DataX + MaxWell + DataWorks + MaxCompute +
Tableau
☆ 项目描述:本项目是基于使用阿里云提供商业 DataWorks 的一站式数仓开发平台构建的离线
项目,离线数仓分为原始数据层(ODS)、数据明细层(DWD)、数据模型层(DWM)、数据
服务层(ADS)这四层。
目的是分析出的数据,辅助数分产品经理、数据分析师以及管理人员分析产品情况,渠道分析,
并对产品、渠道以及公司的战略和业务进行优化。最终达到用大数据技术来帮助公司提升业绩、
经营额和市场占有率。
☆ 责任描述:
1. 采集并 ETL 各种数据源的数据,如 Mysql、MongoDB、LogHub 等
2. 计算分析各部门所需的数据,如 DMP 数据、ERP 数据、画像数据等
3. 数仓优化,从数据同步、数据规范、数据分层建模、计算资源分配、数据调度等
优化
4. 数仓运维,任务报警、资源调度、数据质量保证等
☆ 技术描述:
1. 基于 DataStudio 的数据集成模块,以向导、脚本模式配置编写数据输入输出同步任务,其
底层离线同步使用 DataX、实时同步使用 MaxWell,完成周期(天、时级别)、实时的数据同步
任务,极大提高时效性,应对各种临时性的数据采集
2. 基于 DataStudio 的数据开发模块,以 sql 形式完成数据清洗,同时分层以便数据逻辑清晰
复用,提高计算效率,提高数据高价值,最终分析产出结果,为数据分析人员提供支持
3. 运维中心 Web 界面,配置监控规则,对资源使用、任务调度等故障监控报警,及时通知任
务责任人,对慢实例任务分析原因,制定解决方案,补数据操作等,同时对数据质量监控,避免
脏数据、无效数据产生。
4. 从数据同步、存储、计算等角度,对数仓进行全方位的优化,缩减同步时间、降低计算和存
储费用;规范人员的权限范围,避免误操作,对误删数据进行补救,保证数据的高可靠性;建立
数仓规范文档