了解数仓的分层建设及维度建模理论,可通过工具或代码进行ETL。
掌握Java,Python 和 scala语言,可独立编程。
掌握SQL语言,可独立操作SQL语句并调优。
熟悉常用大数据生态圈技术,包括Hadoop,Spark,Hive,Iceberg等。
公司治理数据域建设
技术架构:
AWS S3, Spark, Yarn
项目简介:ESG中的G,指企业披露的与公司治理相关的信息,包括股权结构,董事会独立性,薪酬体系等。
将经过算法OCR识别后的公司披露的年报,企业社会责任报告,决议公告等数据同步至数仓ODS层。 在DWD层对ODS数据进行清洗,解析抽取报告中公司治理相关的董监高出席情况,多样性等60个数据点, 处理空值,异常值等,并关联公共维度层的公司及人员信息表。 在DWS层统计构建例如女性高管占比等公共粒度的汇总指标。在ADS层构建时间序列分析等统计指标,数据 输出各种数据产品报表。
项目成果: 建设了一个完整的数据流程及数据域,从采集到清洗、处理、关联和汇总,为业务团队提供了一套完整的公司治 理数据分析工具,从而更高效的为客户提供全面准确的公司治理相关的数据产品。
项目简介:ESG中的G,指企业披露的与公司治理相关的信息,包括股权结构,董事会独立性,薪酬体系等。 将经过算法OCR识别后的公司披露的年报,企业社会责任报告,决议公告等数据同步至数仓ODS层。 在DWD层对ODS数据进行清洗,解析抽取报告中公司治理相关的董监高出席情况,多样性等
基于国内权威学术机构,行业组织,主流ESG评级提供商等结果,结合中国市场的ESG数据披露特征和社会观点进行ESG评级数据处理。