本人从事数据仓库、数据中台方面的建设工作,岗位事数据架构师,做的最多的是数据治理相关的工作。
主要技能如下:
熟悉数仓建设过程,熟悉数仓的分层,对数仓的各种分层体系有自己的理解。
熟悉数据治理工作过程,熟悉DAMA理论体系和涉及到的各个子过程域。
熟悉数据标准、数据建模、数据质量、主数据、元数据等数据治理过程域。
熟悉大数据产品的使用(数梦工厂),熟悉阿里的maxcomputer和dataworks。
熟悉数据同步、数据开发、数据分析和数据清洗以及数据标准的规范化过程。
熟悉数仓架构设计,熟悉维度建模的过程,熟悉星形模型,了解雪花模型和支架表。
熟悉数仓实施方案的编写,能输出数仓整体及各模块方案并与客户评审优化。
熟悉项目管理理论体系与项目管理过程,能承担部分项目管理的工作
熟练编写sql,包括窗口函数,聚合函数等,能自己编写udf、udtf并使用。
熟悉Python语言,熟悉python爬虫、模拟登录等常用操作。
熟悉知识图谱搭建过程,熟悉本体、实体的梳理过程,熟悉图数据库(Neo4j)和Cypher语言。
1、山东能源项目
该项目围绕“1+3+2” 应用场景建设框架,建设能源集团统一的数据湖,实现数据资源的统一规范化管理,设计能源集团数据治理体系、数据标准规范
我主要负责:
1、数据建模,与客户沟通,设计煤矿主题域和煤矿主题模型;
2、标准输出,输出主数据、元数据、数据安全、指标等标准规范;
3、客户培训,给各分矿工作人员培训数据治理体系与治理工作过程。
2、浙江省发改委发改大脑项目
该项目是收集并整合各个部门以及IRS上的数据,构建出一个全面的数据仓库;通过运用数据智能技术,协调并优化部门的业务流程;将数据和业务紧密结合,打造省发改委的“发改大脑” (主要是一仓五库+驾驶舱)。
我主要负责:
1、项目管理,制定数据仓部分WBS,按日、周汇报工作进展;
2、数据调研,调研沟通各处室业务需求,分析业务逻辑、开发周期等;
3、指标设计,与客户沟通,分析业务需求,设计数据指标;
4、方案输出,输出发改省市一仓五库联动方案初稿。
山能项目是一个企业项目,我在该项目主要做一下工作: 1、数据建模,与客户沟通,设计煤矿主题域和煤矿主题模型; 2、标准输出,输出主数据、元数据、数据安全、指标等标准规范; 3、客户培训,给各分矿工作人员培训数据治理体系与治理工作过程。
我主要做: 1、数据架构,根据客户需求,进行数仓分层建模,明确数据定义和流向; 2、需求对接,与客户沟通业务需求,明确数据层面工作范围,并制定SOW; 3、模型设计,设计一人一档、一企一档两个主题库的主题域与主题模型; 4、方案输出,输出项目实施方案、探查方案、清洗方案、