• 数据采集:Flume框架:常用agent逻辑的搭建,配置source、channel、sink,完成数据采集; Logstash工具:适合采集日志的场景,过滤功能比较强大;
• 数据存储:Hadoop框架hdfs文件系统:理解hdfs分布式文件系统存储结构和高可用原理; Kafka消息系统:掌握kafka消息缓存系统,熟练使用kafka进行数据的生产和消费; HBase:理解HBase的存储原理和存储结构; Mysql关系数据库:熟练使用mysql;
• 数据处理:Mapreduce:熟悉mapreduce计算框架,对yarn的资源调度有一定认识; Storm:熟悉storm实时数据处理框架的原理; Spark:了解spark运行机制,能运用scala进行简单的spark编程;
• 数据应用:Hive:能够运用hive数据仓库工具,对日志数据进行查询、统计等数据操作;
• 其他工具:Zookeeper:熟悉ZK工作原理,能够使用ZK监控集群节点;sqoop:会使用sqoop进行数据迁移;impala数据查询,kylin数据库简单使用,streamsets数据迁移。
1.软件环境:flume+zookeeper+kafka+spark+mysql+hadoop
硬件环境:华为云
开发工具: IntelliJ IDEA工具
业务描述:1:使用flume周期性收集日志,分别采集数据到kafka,hdfs。2:调用“点都”接口(识别车牌),调用百度车辆识别接口(识别车型),与车辆信息库交互,进入判断库进行判断(判断符合的进站车辆的营销活动)3:使用SparkStreaming进行业务的实时计算分析,包括场站车辆的“进站”,“出站”“销售额”等等4:使用SparkSql进行离线计算,统计每个场站每周,每月,每个季度的加油车辆,销售额,新增油卡用户。5.使用爬虫爬取每家厂商最新价格,竞争对手的舆情信息。
项目职责:flume数据抽取,SparkStreaming实时处理SparkSql离线处理
2.python脚本定时抽取邮件,
加工数据到oracle表中,根据口径标准,使用oralce语句剔除数据
加工成报表,后期直接从离线库抽取数据到
hive表中,使用hql进行报表加工分析。
3.软件环境:elasticsearch5.0.1+jdk1.8+jieba/达观
硬件环境:4台8核、64G内存、2T ssd硬盘加1台8核16G的阿里云服务器
其中一台作为kibana+kafka连接查询的服务器
其他6台都作为node和master两种角色
操作系统:centos7.2 x86_64
业务描述:
将文本数据放入hbase中,利用达观分词系统进行语意分析,将分析结果放入oracle中,进行保存。
主要负责:集群的搭建,建立hbase表,抽取数据到hbase中