针对行业的多源异构数据(如轨道交通、地铁),基于大数据基础管理平台,实现结构化数据的导入、存储,并实现数据的抽取、清洗、转换、交互查询等功能,对业务数据进行属性提取、指标划分、类型汇总等,最终实现数据的查阅、概览、显示、查询等功能。
本部分的大数据平台是基于Ambari搭建,数据分析脚本用hive sql+shell进行编写,源数据格式为csv,数据量为250G(938699148条数据),平均一天一个csv文件,一共是一年的地铁运营数据。
首先将250G的数据批量导入HDFS中,然后撰写数据清洗shell脚本,完成了冗余字段、不符合时间范围、不符合位置逻辑的数据过滤等技术清洗工作;最后进行业务数据统计,完成站点等的进站量、出站量等指标的业务统计分析,具体业务有保密,不可泄露太多,更多内容可以私聊。