熟悉Hadoop集群,熟悉分布式系统原理
熟悉Hive、Spark、HBase、Sqoop、ZooKeeper、Flume、Azkaban、Kafka等大数据生态圈组件及使用,掌握HDFS、YARN的工作原理
熟悉MapReduce及Hive的数据清洗、分析和Hive的调优
熟悉Spark流数据分析以及Scala语言编写
熟练掌握SQL,熟悉MySQL数据库,使用hql进行ETL
熟练运用IDEA工具
熟练运用SecureCRT等可视化软件
熟练Linux,shell脚本
项目时间: 2019 年 9 月-2020 年 3 月
项目描述: 森林防火一直是我国研究的重点项目,为了预防森林火灾,减少人员伤亡,开发该系统。该系统是通过安装在重点观测点的探测器来实现各类数据的实时采集,并依此来进行分析。
该系统的主要模块有:各个采集点的经纬度,实时温度、湿度历史数据,区域范围的平均值及最值。
技术架构: flume、kafka、spark、Mysql 等。
职责描述: 将收集到的数据通过 kafka 传入 spark,由 spark 进行实时过滤,将过滤完符合要求的结果保存到 mysql 中,由前端实时监控此表并作预警。
项目时间: 2019 年 3 月-2019 年 9 月
项目描述: 指导各级措施落实环境监测数据分析合污染防治方案编制。
技术架构: logstash、Hadoop、hive、sqoop 等。
职责描述: 将日志存储到hdfs,同时建一张hive表,以天为单位分区,分区表内是每日的日志数据。使用hive对日志数据进行处理,存入Hive分区表中。把Hive数据库中的数据,根据不同业务维度查询出来以后同步到mysql数据库,交给前端对接到报表系统.
项目时间: 2018 年 12 月-2019 年 3 月
项目描述: 为了方便全面完善环保监测,引入了天气变量来更好的预警。该系统是通过历史存留数据和气象部门的天气数据对各个地区尤其是景区的天气状况进行即时反馈、统计以及预测。
该系统的主要模块有当前天气状况、历史天气状况、预测指定日期天气状况,给出相应的出行意见及穿衣指数等等。
技术架构: Mysql、sqoop、Hadoop、Hive 等 。
职责描述: 通过 flume 清洗后传入 kafka 获取数据到 hdfs,对数据进行进一步过滤,写入 Hive 中,通过 hql 语句对数据进行计算查询,得到各个地区的数据后,通过 sqoop 将数据导入 mysql。
项目时间: 2018年7月-2018年12月
项目描述: 人力资源管理系统,需要实现的功能有浏览应聘信息,添加应聘信息,并且可以对信息进行修改。
技术架构: jsp、java、mysql等。
职责描述: 建立数据库用于数据的动态获取;
idea编写CURD语句实现页面的增删改查。