一、大数据技术
1. 能够搭建Hadoop并熟练使用相关技术HDFS,YARN,MapReduce,Flume,Sqoop;
2. 熟悉MapReduce工作调度原理,掌握MapReduce和Shuffle流程;
3. 熟悉HBase的运行机制,split及compant机制,RowKey设计原理;
4. 熟悉大数据生态圈Kafka,Zookeeper,Elasticsearch常用组件的使用;
5. 熟悉Spark、Flink的使用。
二、数据库相关技术
1. 熟悉Hive数据仓库,能够编写SQL语句完成业务指标的分析;
2. 熟悉数仓的设计;
三、编程语言
1. 熟练使用Java进行编程;熟悉spark,flink的使用;
2. 了解python,Shell脚本的编程。
四、其他
1. 了解Kylin,Azkaba可视化工具的使用;
2. 熟悉GitHub,Maven等开发工具。
项目名称:机床监控平台
系统架构:kafka+flink+HBase+redis+doris+DolphinScheduler
工作时间:2021.10 至今
实时采集工厂设备的信息,flink实时处理到doris库,DolphinScheduler定时汇总出结果表。原项目采用storm+mysql的方
式,进行了全新改造。
①改造原始框架、设计新框架
②环境搭建设计、部署
③数据处理逻辑优化,减少对redis的依赖
④DolphinScheduler部署使用,利用doris的性能,减少代码处理数据
⑤flink采用Scala编写、部署
⑥sql编写,用于后端查询数据,减少后端计算数据的压力
⑦手写数据迁移工具,从mysql到doris
系统架构:kafka+flink+HBase+redis+doris+DolphinScheduler 实时采集工厂设备的信息,flink实时处理到doris库,DolphinScheduler定时汇总出结果表。原项目采用storm+mysql的方 式,进行了全新改造。 ①
项目描述: 目的是通过数据的碰撞,探索目前地方旅游业的未知问题,分析和挖掘市场需求,从而提高决策能力,创新管理模式,改 变商业模式催生产品和服务的创新。 核心功能: 离线部分: 基于已有数据对区域范围内的旅游产品分析展示; 定时监控舆情信息; 实时部分 基于核心业