掌握mysql,hive数据库的sql编程,能够使用Hive进行海量数据的统计分析,并且有一定
的数据优化经验。
熟练运用spark-core,spark-sql编程,能将hive和spark sql进行整合,进行数据查询、
数据统计分析、标签计算等相关操作。
熟练python语言,可以使用python来进行对业务逻辑的处理,以及ETL等操作。
熟悉Hadoop以及HDFS存储、MapReduce计算以及Yarn资源调度原理。
熟悉linux系统,熟悉常用的linux的shell命令,能在linux系统下搭建开发环境。
熟悉Datagrip、Python、Idea等开发工具使用。
了解Sqoop数据迁移工具的使用,能熟练的将数据从不同的存储介质进行迁移。
了解DataX数据库导入Hive及调度流程
项目名称: O2O购药平台数仓用户画像
技术架构:Mysql+ Hadpoop+ Sqoop + Hive + Spark + ElastSearch + Azkaban + FineBi
项目综述:
近几年疫情期间趋势,“宅家”的高频率推动了线上购药的发展,线上线下联手,打造多元化消费场
景,满足消费者的个性化需求,有助于提升药店口碑、增强消费者对药店的信任度,基于原有的业务数据
库构建的hive数据仓库,得出不同维度的可分析数据存入ElastSearch,结合线上或线下的会员群体消费情
况,进行数据挖掘建模来构建评分模型,根据模型对计算评分,将会员划分不同的等级,从而得出不同维
度的用户画像,以达到三个标准。第一、对用运营中台来说提供一个交互式分析查询功能的接口,进行药
店经营分析,为运营决策提供数据支持;第二、对于O2O购药平台实现个性化推荐功能:新人优惠,优惠
券发放促销等等;第三、给营销部门提供一个流失用户的画像集,便于他们召回流失用户的工作,以此三
目标来设计整个项目架构。
个人职责:
参与数据仓库建模设计,根据数据的安全性和管理性建立外部表和内部表。
用户画像标签体系构建,并维护标签体系表。
匹配各类用户画像标签,比如: 静态维度分为:性别,会员类型。
挖掘类数据集预分析及预处理,查看数据整体情况,缺失值、异常值处理,对数据进行清洗
特征处理:将数据按照用户进行特征处理,特征数据进行vector进行转换,数据涉及到不同的量纲,因
此采用标准化处理,对数据进行统一缩放
通过K-Means和聚类后的分类跟运营中台合作构建挖掘类用户画像,分析出会员价值分类,面对不同会员
价值的分类采取不同的应对方法。
项目名称: 云食城离线数仓
技术架构:Mysql + Hadoop + Sqoop + Hive + FineBi + Oozie + Python
项目综述:
公司所在正处于发展物流重点区域,由建立园区以来业务不断发展,历史产生的数据量非常庞大,
同时为了更好地管理新搭建的WMS系统以及是ERP系统的数据接入,也为了领先于该区域的同行的业务
发展,因此成立数据仓库项目,为运营部门以及决策层领导提供有更可靠、更直观的数据支撑,也为
更好得管理公司的业务数据供日后报表分析。
个人职责:
使用Python读取Excel、csv文件进行ETL操作处理,提前对数据进行加工筛选,在将处理好的数据写入
MySQL的业务数据库中。
使用sqoop推送MySQL业务数据库数据到Hive数仓的ods层。
检验在dws层关联维度和事实表针对不同维度(日期 + 供应商 + 货物分类)聚合计算得出临时视图数
据是否存在误差.
聚合不同维度的结果视图(多个sql 通过union all或grouping sets)形成细粒度的统计宽表或粗粒度
的统计宽表
根据财务人员提供的维度和指标以及聚合计算逻辑,编写Hsql完成计算层的维度指标精算。
利用fineBI工具,抽取已经从rpt层计算好并导出的数据作为每日看板的数据支撑。