1、熟悉 oracle 数据库和 PL/SQL 工具使用(存储过程,游标,自定义函数,dblink,并行,视图等),会查看执行计划
并进行调优
2、熟悉 spark(主要使用 pyspark),熟悉 rdd 各种算子,理解逻辑,有源码阅读,熟悉底层原理,熟悉 spark ml,
会机器学习(主要是分类和回归类),会图计算和流计算,有丰富的 spark sql 海量数据处理经验
3、熟悉 hive,mapreduce,熟悉底层原理和 hql 调优
4、掌握 flink 和 kafka(熟悉端到端精确一致之间逻辑原理,熟悉 cdc 和 jdbc 连接器),hbase(存储原理,lsm,热点问
题,文件合并和分割等),熟悉 tidb 数据库,并结合 kafka 和 flink 做出实时报表展示
5、熟悉 python,会 java 和 scala
6、掌握 hudi,doris,clickhouse
7、熟悉 sqoop 导入导出数据和 Azkaban,Airflow 等调度工具
广发银行反洗钱项目描述:在大数据平台加工客户账户和校验,汇总全行交易数据,对加工好的交易数据(核心,信用卡,单证等
渠道)进行相应规则校验,提取共性生成指标,根据相应规则校验(大额规则和可疑规则)生成相应预警,下发到
oracle 生成案例,报告。
项目中负责的部分:1.作为可疑模型组长梳理需求,模型设计,架构设计(指标和规则),分配任务,开发测试评审
2.处理 oracle 数据库涉及的所有开发,相应的优化,批次出问题的维护,直到上线批次平稳,3.一些小一点的需求:
信用卡,境内外 pos 卡,慧收款,电话地址异常标记等等
项目流程和职责 :
1、使用华为大数据平台开发 FI 集群,CDH 集群
2、数据接入:文件检查->sqoop 用 sftp 上传文件->贴源层->历史层->整合层(开放使用),数据文件来源有 ods 系
统文件或者其它系统数据库,文服下发,项目自身回流文件等
2、应用加工:主要组件(hive,spark)本项目主要使用 pyspark 加工复杂数据,清洗加工客户,账户,交易等几十张
大基表),利用视图作为中间加工结果,最终结果落表。
3、下发流程:把最终结果合并成一个文件,下发到项目的 nas 盘
4、使用 sqlload 加载文件数据到 oracle 数据库的 ETL 表,最终使用存储过程全量或者增量同步到正式表
5、同步存储过程优化点:表 nologging 和索引删除,用 parallel 进行插入,完成后进行索引重建和统计分析。
6、分区表使用交换分区进行数据同步,定时归档
7、server 跑批出最终结果(java 写的,正在迁移中,到 tidb 做交易数据查询(数百亿量),server 改到 tispatk 执行,
优化批次时间)
8、参与需求评审,架构规划,设计,性能优化,攻克技术难题,构建优质的代码
9、参与需求评审,根据需求合理性,开发周期,开发资源,项目排期定稿最终方案
10、概设完成需和需求分析师,测试一起做需求澄清,确认开发方案和测试场景案例无误
11、开发经过冒烟测试和 sit 后进行代码评审(加工逻辑与需求是否一致)
12、参与大数据、DB2、Oracle 存储开发调优及后台 server 数据归档 SQL 语句优化,使整个批次时间从原
来的 14 个小时缩短到 6 个小时;
13、针对客户、账户、交易等三大主题数据的分析,提炼公共代码,清洗源表,整合加工层、指标层代码,完成代
码重构,提高跑批效率,缩短批次时间。
14、严格把控概要设计、代码评审、投产评审及验证等各个环节,提高投产质量及减少代码返工,获得客户好评。
15、使用 kafka 读取数据,通过 flink 的 jdbc 连接器,sink 写入 tidb 展示或者通过 cdc 连接器做 source 读取变化
流数据做实时更新展示