该项目是由该公司致力于解决全国电信欺诈问题的项目,以前是使用存储过程加公司自研发的系统进行大数据分析,现在改用大数据平台进行分析,每一个小数一个省的数据量大概有一亿条,高峰时期每小时2-3亿,一天处理的数据量在25亿左右,使用公司自营服务器16台,每台内存256G,容量TB级。该系统就是从大量数据中对号码进行指标分析,筛选出有诈骗嫌疑的号码加入集团黑名单中。\
1.首先大数据端从HDFS端取得文本数据,使用Scala语言对数据进行处理后输出到Mysql/Impala,使用架构为Hadoop+Hive+Impala+Spark+Scala+Hue+Oozie+Flink
2.Java后端通过XML配置动态生成SQL语言,对大数据处理后的结果进行查询。主要架构为SpringMVC+Spring+SpringBoot+Mysql+Vue