熟练使用 Java, Scala,编程语言, 了解Python 语言会编写爬虫;
掌握常见的Java EE 开源框架 Spring, Spring MVC, Spring Boot, Mybatis, Maven;
熟悉 Mysql, Redis, Hbase等关系型以及非关系型数据库;
具备较强的SQL编写能力;
熟悉Tomcat, Nginx 开源服务器配置与使用;
熟练使用Linux 命令, 熟悉shell, Python 脚本编写;
熟悉Hadoop生态圈以及参与过Hadoop集群的搭建;
熟悉HDFS 的存储机制, MapReduce的工作原理以及Yarn的工作流程;
熟练使用Spark, Spark Core, Spark SQL离线计算,SparkStreaming进行实时数据的分析;
使用过Flink进行实时数据开发,了解Flink的基本原理;
了解Spark的工作机制以及执行流程,可以对Spark进行简单调优;
熟练使用Flume, Kafka, Sqoop, DataX等组件进行数据采集以及数据迁移和同步;
掌握Zookeepr, Kafka, 的基本工作原理,了解Kafka的消息队列;
熟练使用Airflow, Azkaban, Oozie等工具对任务进行定时调度;
了解 ECharts, FineReport等可视化工具;
了解Clickhouse、Kudu、Druid、Kylin等OLAP引擎;
使用过CDH集群进行业务开发;
掌握 HTML, CSS, JavaScript, JQuery, Vue等前端编程语言, 具备简单网页开发 能力;
项目名称:领跑新能源汽车 2021.10-2022.8
项目架构:
Zookeeper(3.7.1)+Hadoop(3.3.4)+Kafka(3.3.1)+Flume(1.10.0)+Mysql(8.0.31)+Hive(3.1.3)+DataX(3.0)+Airflow(2.5.0)+FineBI
项目描述:
在当今的时代,新能源汽车行业正在飞速发展,成为全球汽车产业的一大趋势。随着环保要求的提高,各国政府都在推动新能源汽车的发展,以减少碳排放,改善环境质量。同时,新能源汽车的技术进步和产业链的完善,也使得越来越多的消费者开始接受并购买新能源汽车。随着新能源汽车使用人群的增大,企业为了维护用户体验和产品的售后保障,开始使用大数据技术进行搭建数据仓库,并通过采集汽车传感器的日志信息对汽车的行驶数据以及能耗进行分析,计算业务核心主题数据以及统计报表指标。这为日后我们对改进汽车性能、诊断问题以及分析驾驶行为提供帮助。
项目过程:
先使用DataX把Mysql中的汽车信息维度数据上传到HDFS,然后再使用Flume将汽车行驶日志也上传至HDFS,再按照实际需求进行数仓建模分层(ODS、DWD、DIM、DWS、ADS)。然后进行数据导入先把原始数据导入ODS层然后把ods层中有关汽车信息表join合并为一张汽车信息维度表和日志编码维度表一同写入到DIM层作为公共维度表,再将汽车行驶志信息进行ETL清洗后导入DWD层作为实时表,然后再将事实表和维度表进行关联聚合导入DWS层,最后在ADS层进行各项数据指标的汇总以及各个时间段的汇总后导出到Mysql,之后利用FineBI进行可视化展示。
个人职责:
1.编写shell脚本使用Flume采集汽车行驶日志信息并上传至HDFS。
2.对汽车行驶日志数据进行ETL清洗,写入到Hive的ODS层。
3.编写sql对DWD数据进行聚合处理导入DWS层。
4.使用DataX把ADS层汇总数据导出都Mysql。