大数据系统架构;
Cloudera Hadoop 平台管理调优;
mapreduce编程,离线数据清洗,过滤的处理;
sparkSQL,HBase,Hive等组件;
擅长的语言java,scala,python
利用scrapy爬取互联网数据
光大银行准实时KPI数据处理平台:
简介:针对业务关注的,时效性要求超越T+1的报表需求,如关键时点的核心存款、流动性报表等,实现报表数据的准实时计算
IDE:idea
应用语言:Java
测试环境:Cloudera Hadoop
应用技术:SparkStreaming+HDFS+kafka+flume+Hbase+hive+zookeeper
数据的处理流程:需要把业务数据抽取成文件,通过Flume把数据文件传给Kafka进行处理,然后被SparkStreaming的消费端消费,经过处理后保存入Hbase中