熟悉Scala、Python等语言;
掌握Hadoop、Hive、Hbase、Flume、Zookeeper、Kafka、Spark、Flink、Sqoop等技术的使用;
掌握SQL、HiveSQL,具有一定的调优经验;
熟悉SparkStreaming和SparkSQL数据处理;
掌握Shell脚本,Linux操作系统命令,SSM、SpringBoot框架;
熟悉数据仓库开发、报表开发。
拉钩网爬虫大数据实时分析平台
通过Python爬取拉钩网岗位数据,利用Flume监控目录与Kafka之间实时读取数据至HBase中,
使用Hive和HBase映射整合,实现HiveSQL对岗位数据进行清洗、多维度分析和存储,
将存储的分析数据导入MySQL中,采用Echarts实现数据可视化。
大数据实时统计分析可视化系统
通过Python爬取爱奇艺网站数据,利用Flume监控目录与Kafka实现实时读取,
使用SparkStreaming对网站数据进行实时清洗并存储至Hbase中,利用SpringBoot实现数据可视化。
大数据日志离线分析系统平台
通过Nginx产生日志并实现负载均衡,利用Flume采集、监控日志数据至HDFS中存储,
采用MapReduce对日志数据进行清洗并导入Hive中,利用HiveSQL实现数据分析,
将分析处理的数据利用Sqoop导入MySQL中,采用SSM框架来实现数据可视化。