数据管道与存储:熟练搭建 Hadoop(HDFS/YARN) 集群,设计 Hive 数据仓库(分区、分桶优化)。
开发 Spark(PySpark) 批处理任务(日均处理TB级日志)。
mysql的伪数仓, 以及mysql调优和SQL调优
掌握 ETL开发。
BI工具与多维分析:精通 FineBI 开发复杂报表(参数控制、层级钻取、动态计算),以及FDL
自动化与协作:熟悉rpa自动化软件(影刀)
前期:使用MySQL搭建伪数据仓库
设计并实现了基于MySQL的数据仓库架构,整合了多个业务系统的数据源。
开发了一系列ETL作业,定期抽取、清洗和加载数据至数据仓库,确保数据的一致性和准确性。
利用FineBI 创建了多个交互式报表和仪表板,提供给销售、市场和运营团队使用,提升了决策效率。
实现了关键业务指标(KPIs)的自动计算和报告生成,减少了手动操作的工作量。
中期:优化现有数据仓库
分析现有数据仓库的性能瓶颈,提出了多项优化建议,如索引优化、分区表设计等,显著提高了查询性能。
引入了增量更新机制,减少了全量数据同步的时间和资源消耗。
建立了数据质量监控体系,定期检查数据完整性和一致性,确保高质量的数据输出。
后期:升级为大数据平台
领导了一个从传统数据仓库向大数据平台迁移的项目,选择了Apache Hadoop和Apache Spark作为核心组件。
设计并实施了新的数据架构,包括数据湖的设计、ETL流程的重构以及实时数据处理管道的建立。
部署了AWS EMR集群,用于大规模数据处理,并利用S3存储海量原始数据,降低了存储成本。
开发了基于Spark Streaming的应用程序,实现实时销售数据的分析和监控,支持即时决策。
整合了多种数据源(结构化、半结构化和非结构化),建立了统一的数据视图,增强了数据的可访问性和可用性