项目描述:
项目基于中国南方电网的大数据分析平台, 因公司经营发展需要构建大数据技术数据中心, 通过离线的框架整合
方式进行数据分析, 构建基于电缆、开关柜、配电变压器等电网设备质量大数据的质量评价模型,实现差异化抽检策
略优化和提升入网设备质量的目标。使用 Hive 完成数仓分层建模、Sqoop 进行数据迁移、MapReduce 计算相关指
标、Oozie 进行调度, 最后通过 PowerBI 对各个主题看板进行报表展示,使用 Latex 产出设备供应商评估报告,为
项目后续制定入网设备的差异化抽检策略管理方案提供数据理论支撑。
项目架构:
MySQL + Sqoop + HDFS + Hive + Presto + Hue + PowerBI
项目职责:
根据甲方的调查报告提取整合所需数据,导入 MySQL 数据库中,使用 MATLAB 建立 Topsis 多级指标数学模
型,在 Python 和 PowerBI 中生成评价结果和可视化报表,定期与甲方汇报项目进度,以论文报告和 PPT 的形式
向甲方展示供应商设备的质量评价结果,具体工作内容可分为以下几点:
1. 参与项目流程分析,文档撰写及 Hadoop 节点搭建;
2. 参与南方电网物资和设备的数仓结构构建,分别为 ODS、DWD、DWB、DWS、DM、RPT 层;
3. 对各层数据进行数据的清洗转换;
4. 将事实表和核心维度表进行关联聚合,依据不同业务生成响应的宽表数据,为后续的业务查询、分析等提供
支持;
5. 解决缓慢变化维 SCD 的问题,采用维护拉链表的方式;
6. 采用 topsis 熵权法对离线数据进行指标分级和综合分析;
7. 生成相关的成果文档及报告。
项目成果:
大数据的设备质量评价结论,有助于把关入网设备的质量,提高抽检的工作效率,在后续项目落地和试点应用
中,抽检成本降低 15 个百分点,设备全生命周期成本降低 20 个百分点。