熟练掌握:Flink、Spark、Hadoop、Kafka、Flink-cdc、Elasticsearch、HBase、Janusgraph、Hive、
Redis、MySql、Oceanbase、Spring Boot、Spring Cloud、Mybatis等技术
熟练使用:Docker、K8S、Persto、Iceberg、Hudi、Minio、Zookeeper、Clickhouse、Postgresql、
Prometheus、DM、GaussDB、Jenkins等技术
Niyas数据中台是面上PB级数据的一站式数据集成、治理、共享、分析及可视化平台。涵盖数据管理、
数据集成
项目经历、数据质量管理、元数据管理、数据仓库、数据标准管理、数据服务、图引擎及数据可视化等模块。
负责模块:
1. 数据管理: 设计、编码各个数据源的元数据信息及样例展示,为半结构化数据源(如HBase,
Hdfs,Mongo
db,kafka)等数据源设计并开发schema相关模块。
2. 数据集成: 实现组件化、交互式数据处理模块:
基于flink自定义开发soure及sink,实现多元异构的数据处理架构,并支持数据样例及运行数量回
传及脏数
据处理。
使用flink支持批流一体数据处理,并支持kappa实时数仓架构,支持HBase等数据库作为维表点查
提升实
时数据join效率。
支持数据库日志-kafkaUpeset-hudi湖仓一体架构。
提供sql组件(包含sql校验及解析)、restful组件、加/解密、脱敏及分支等多种数据处理组件。
支持任务运行日志通过logback kafka append流入elasticsearch,并进行日志分析。
支持flink udf 与系统上注册及测试并支持其于sql组件中使用
3. 数据质量管理: 实现规则配置化,任务调度化的数据质量管理平台:
提供非空率、格式合规率、値域合规率、数据唯一率、关联数据唯一率、及时率等指标的数据质量检
查,
同样基于数据集成模块的多元异构数据处理架构,支持多种数据源进行数据质检。
记录数据历史质检记录并生成质检报告。
4. 元数据管理: 提供元数据记录、版本变更记录、元数据手动/自动采集、数据血缘等数据治理辅助
功能:
开发元数据采集、变更历史记录等功能。
基于数据集成模块开发数据血缘记录及展示功能,通过sql解析及任务解析自动解析出系统中的表
级、字段
级数据血缘,并使用分布式知识图谱数据库进行数据血缘的存储与使用。
5. 图引擎: 基于janusgraph分布式知识图谱,提供支持万亿级别节点及关系的海量知识图谱的可视
化建模、配置
化数据入图及知识图谱可视化工具:
知识图谱的可视化建模。
知识图谱入图模块。
使用技术:Flink/HDFS/HBase/Elasticsearch/Openlookeng/HIVE/Prometheus/Janusgraph等
数据集成: 实现组件化、交互式数据处理模块: 基于flink自定义开发soure及sink,实现多元异构的数据处理架构,并支持数据样例及运行数量回 传及脏数 据处理。 使用flink支持批流一体数据处理,并支持kappa实时数仓架构,支持HBase等数据库作为维表点查
数据集成: 实现组件化、交互式数据处理模块: 基于flink自定义开发soure及sink,实现多元异构的数据处理架构,并支持数据样例及运行数量回 传及脏数 据处理。 使用flink支持批流一体数据处理,并支持kappa实时数仓架构,支持HBase等数据库作为维表点查
数据集成: 实现组件化、交互式数据处理模块: 基于flink自定义开发soure及sink,实现多元异构的数据处理架构,并支持数据样例及运行数量回 传及脏数 据处理。 使用flink支持批流一体数据处理,并支持kappa实时数仓架构,支持HBase等数据库作为维表点查