熟练掌握Scala函数式编程
熟悉java面向对象编程,熟悉webservice、springboot,MyBatis-Plus等java框架。
理解Spark的运行工作机制,掌握Spark任务的执行流程,具有一定的Spark调优经验;
熟练掌握Spark Streaming,对流式数据在线处理分析,掌握利用Spark SQL进行数据处理、查询、统计
掌握Flume进行多种数据源数据采集,自定义Source实现日志采集过程中的偏移量维护;
熟悉Hive的运行机制,熟练使用hive窗口函数,熟悉hive自定义函数,具有一定的hive调优;
Mysql,Postgres关系型数据,
熟练使用kudu+impala 具有一定的调优经验
熟练使用canal获取实时mysql 的binlog数据,熟练使用canal-adapter、canal-admin
理解Hadoop的分布式文件系统HDFS的整体运行机制;
熟练使用Linux常用命令,熟悉shell脚本编程
熟悉任务调度工具Azkaban、oozie、kettle数据迁移工具,grafana数据可视化监控
熟悉cdh5,熟悉ambari2.7,并且能够独自搭建cdh和hdp平台。
熟悉FineReport报表软件
项目名称:智库系统
项目描述:为了能够更好的帮助公司领导,采购,运营,物流等各个部门了解公司的运营情况,产品的销售情况,来辅助公司管
理者根据当前公司情况做出更好的规划以及决策
项目架构:Canal-1.1.5 + Flume NG 1.9.0 + Kafka 2.2.1 + ZooKeeper 3.4.5 + Spark 2.4.0 + Kudu 1.10.0 +
Hadoop 3.0.0 + Hive 2.1.1 + Sqoop 1.4.7 + Elasticsearch 7.9.0 + Hue 4.2.0 + Impala 3.2.0 +
azkaban 3.90.0 + canal-adapter-1.1.5 + Oracle 11.2.0.4.0 + Mysql 5.7.31 + canal admin 1.1.4 +
kafka_export 1.3.1 + prometheus 2.22.0 + grafana 8.2.1 + java + scala + shell
责任描述:1、数据的ETL
2、离线报表统计
3、实时报表统计
4、数仓的部分搭建
5、大数据平台的搭建
6、大数据平台的优化
开发步骤:
ETL:
业务数据通过canal获取mysql的binlog数据,然后将数据推送到kafka的topic中,通过flume收集kafka中的业务
数据到hdfs以便做业务数据的离线计算,通过spark streaming获取kafka中的数据进行清洗将数据实时同步到kudu里面,
通过spark core编写代码将mysql数据全量同步到kudu,通过impala做业务的实时计算,flume收集文件服务器的店铺数据到hdfs,做店铺数据的离线处理,通过sqoop导出hive表的数据到mysql,通过spark 导出impala数据到mysql
通过canal-adapter获取kafka的数据实时同步到Oracle,通过kettle将mysql数据全量同步到oracle
报表:我们报表分为离线报表和实时报表
离线报表:我们使用hive on spark 对hive 表的数据进行统计,通过impala对kudu表数据进行统计,通过
通过sqoop将统计好的hive数据导出到mysql,通过spark 程序将kudu表的数据导入到mysql,
通过易佰云智库系统进行展示
实时报表:通过impala对kudu表数据进行统计, 通过spark 程序将kudu表的数据导入到mysql,
通过云智库系统进行展示
为了能够更好的帮助公司领导,采购,运营,物流等各个部门了解公司的运营情况,产品的销售情况,来辅助公司管 理者根据当前公司情况做出更好的规划以及决策
为了能够将分散的数据转化为可访问能为企业发展提供决策性的数据平台,并且规范企业数据标准,数据访问控制, 实现公司业务管理的自动化和智能化,辅助公司管理者管理预测,提高决策水平。