1.熟练使用 Java、Scala 编程语言
2.掌握 Linux 操作系统,
3.熟练操作 Hadoop 的分布式文件系统,深入理解 MapReduce 原理
4.熟练掌握 Hive 的工作原理,以及 Hive 调优
5.熟练掌握 Flume 数据采集工具的原理,实现流式数据过滤和分析
6.熟悉 HBase 的底层的储存机制和存储原理
7.熟悉 Kafka 工作机制、生产者消费者功能、Kafka 部署
8.熟练使用 Spark Streaming、Spark Core、Spark SQL 的使用及调优
9.掌握 MySQL 数据库基本原理
股票数据分析系统:
通过历史数据和线下实际情况相结合,将日期、股票代码、股票名称、股票当天开盘价、股票当天收盘价等等进行收集,并且对其进行剖析,得出分析结果。
1.通过 flume 对多数据源的数据进行实时采集,发送到 kafka 信息中间件中。
2.Kafka 把数据发送到 SparkStreaming,将实时接受的数据通过解析, Spark 函对数据进行清洗,加载。
3.将解析数据后上传到HDFS,通过SparkSQL将数据导入到Hive,而后通过SparkSQL操作Hive进行计算,而后将最终结果保存到MySQL。
进行数据分析,通过大数据对股票价格进行线上线下一手抓,通过这样的数据就能够判别出经济周期的所处阶段,对应所操作的股市,也就可以制定策略,调高盈利概率。