1.熟悉零售行业,erp 项目开发,erp 相关业务,BI 报表
2.熟练使用 python 进行项目开发,Scrum 敏捷开发,
3.熟悉 postgresql,mysql 等关系型数据库,redshift 数据仓库,
4.熟练使用 Amazon EMR,Amazon glue,spark 进行大数据处理,
5.熟练的使用 git 代码管理工具。
● 项目简介:
通过构建一个高效、稳定、可扩展的数据仓库系统,为客户提供全面的、多维度的数据分析支持,帮助客户提高数据分析效率,决策制定和战略执行,优化资源配置,增强企业竞争力 。
● 项目架构:
redshift+Amazon emr+step function+Amazon glue+S3+EC2+postgresql+mysql+BI工具
● 工作内容:
1. 设计和开发数据仓库架构,包括 ETL 流程、数据仓库表结构设计等。
2. ERM集群和spark环境搭建
3. 使用 SQL 和 PYSPARK 对维度表,事实表,汇总表各个job进行清洗和转换,确保数据质量和准确性。
4. 润乾BI报表制作
5. 参与数据仓库项目的部署和监控维护,确保项目按时完成并达到预期效果。
6. 与客户和同事保持良好的合作关系,及时沟通并解决问题
● 技术要点:
1. postgresql(增量存储),mysql (任务配置),AWS S3和redshift(清洗结果存储)
2. 通讯程序程序环境搭建(同步ERP增量数据)
3. Emr-spark 集群环境搭建(清洗程序的运行环境)
4. Spark-job 开发(清洗程序)
5. 工作流构建(清洗程序有序执行)
● 项目简介:
部门内部同时有多个产品线,并且每个产品线都服务于大量的客户,在长期的客户服务和系统运维过程中会产生大量数据,这些数据分部于各部门系统中。数据中台做集中化管理,把数据汇总后再提供给个各产品线,从而产生更大的数据价值。
●工作内容:
1. 设计和开发数据中台系统,包括表结构设计、数据采集、存储、处理和分析等。
2. 数据中台与线下erp实时同步(多任务配置)。
3. PostgreSQL数据库性能优化(表主键、索引检查、分区等)。
4. 数据备份(数据中台只保留增量数据,全量数据备份到AWS S3)。
5. 数据库的日常维护、数据监控、安全管理。
6. 与客户和同事保持良好的合作关系,及时沟通并解决问题。
● 技术难点:
1.解决数据时效性、重复、缺失、不一致等问题,确保高质量的数据。
2.多源数据整合,处理不同部门不同系统数据建立一致的数据标准。
3.数据安全,身份验证,访问控制。