熟练掌握hadoop分布式数据数据集群,掌握hadoop集群的搭建和配置;
熟练掌握CM,以及CDH集群的搭建和配置,与调优。
熟练掌握Ambari,与HDP集群的部署和调优。
4.熟练掌握MapReduce,hdfs,Yarn等框架,以及相关开发和性能调优;
5.熟练掌握Hive、HBase,sqoop、flume、zookeeper、storm、kafka等组件;
6.熟练掌握elasticsearch、ELK等其他开源项目;
7.熟练掌握spark、sparksql、sparkStreaming以及相关源码。
8.熟悉linux操作系统,python、scala、shell、java 。
9.熟练掌握Atlias以及kerberos 等。
10.具备丰富的大数据运维和调优经验,有PB级数据集群开发运维经验。
11.熟练掌握Hadoop 和 MapReduce 集群运维、故障处理、数据倾斜、性能调优
12.熟练掌握Hbase集群运维、性能优化。
13.具备kylin、clickhouse等OLAP经验 。
14.具备丰富的数据仓库建设经验。
15.具备丰富的大数据平台建设经验。
王府井数据平台通过收集相关电商平台的消费行为数据,进行ETL处理,并使用HBase、ES等实现各子公司/业务部门数据的存储,同时基于Hive做数据分析、报表处理。本期项目还实现了各子公司之间的ID拉通,成功建设了用户标签体系,构建了丰富的宏观画像和微观画像并且完成根据用户群进行精准营销推荐等功能。同时还包括对电商网站的各种用户活跃行为(访问行为、购物行为、广告点击行为等)进行复杂的分析。