1.熟练使用Mapreduce,Spark,Hive进行ETL,数据挖掘,数据分析;
2.熟悉SparkStreaming,Storm,Flink流处理框架;
3.熟悉Java,Scala ,Python开发语言;
4.数据仓库、数据集市设计规划,ODS分层,维度建模;
5.Redis,Hbase,MySQL,MongoDB,Elasticsearch,Kylin,Grafana,Kafka, Flume,Kettle,Azkanban使用经验。
1.运营商位置数据仓库项目
项目描述:通过与国家互联网应急中心合作,对三大运营商数据进行合并,提取其位置信息进行汇总,形成全量位置数据仓库。
前期先在各省分集群通过SparkStreaming+kafka的方式汇总三网的所有信令、详单等涉及位置的数据,统一各字段的名称和单位;然后通过位置纠偏算法对数据进行过滤,汇总到中心kafka集群的指定topic上;最后落地到hive和hbase进行持久化存储。
目前以位置知识库为基础进行合作的单位有:北京公安局、贵州应急厅、中国银行北京分行、通州区政府、招商局中外运等。
2. 交通行业数据集市
项目描述:为了提升研发人员对政企单位交通类需求的处理速度,部门领导决定在电信自有数据仓库基础上,根据交通行业客户的各类需求,开发对应的交通行业数据集市。包括职住、出行OD、通勤、人口分布等各类宽表。
整个集市以电信数据仓库为数据源,按照各主题需求,通过hive+spark的方式进行数据处理,生成对应的hive表。
集市项目部署在azkanban调度系统上,以事件依赖的形式依次触发并按天执行。
以上项目均由本人主导方案设计及开发
交通行业数据集市 项目描述: 为了提升研发人员对政企单位交通类需求的处理速度,部门领导决定在电信自有数据仓库基础上,根据交通行业客户的各类需求,开发对应的交通行业数据集市。包括职住、出行OD、通勤、人口分布等各类宽表。 整个集市以电信数据仓库为数据源,按照各主题需求,通过h
运营商位置数据仓库项目 项目描述: 通过与国家互联网应急中心合作,对三大运营商数据进行合并,提取其位置信息进行汇总,形成全量位置数据仓库。 前期先在各省分集群通过SparkStreaming+kafka的方式汇总三网的所有信令、详单等涉及位置的数据,统一各字段的名称和单位;