大数据架构
离线数仓,实时计算,数据采集,ETL
文件存储: Hadoop HDFS、GFS、KFS、Tachyon
离线计算: Hadoop MapReduce、Sparksql
流式、实时计算:flink、Spark Streaming
存储格式:kudu、ORC、Apache Parquet
数据库: HBase、Redis、hive
资源管理: YARN、
日志收集: Flume、
消息系统: Kafka、
在线、离线查询搜索分析: Hive、Impala、Presto、Phoenix、SparkSQL、Drill、ClickHouse、Elasticsearch
数据可视化查询分析工具:metabase、Kibana
分布式协调服务:Zookeeper
集群管理与监控:Cloudera Manager
数据同步: Sqoop、DataX、Cannal
任务调度: Azkaban、Oozie
电商大数据体系(涉及 离线,实时)
集群搭建+集群维护+需求分析+hive优化+架构选型
对电商平台产生的日志做用户行为分析及搜索推荐,业务数据做漏斗分析提供报表