猿急送>

中山其它兼职程序员

ID：334925

政

大数据开发

公司信息：
北京银丰新融科技开发有限公司

工作经验：
5年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程
可工作日驻场（离职原因）
可工作日驻场（自由职业原因）

所在区域：
中山
全区

技术能力

1、熟悉 oracle 数据库和 PL/SQL 工具使用(存储过程，游标，自定义函数,dblink,并行，视图等)，会查看执行计划
并进行调优
2、熟悉 spark(主要使用 pyspark),熟悉 rdd 各种算子，理解逻辑，有源码阅读，熟悉底层原理，熟悉 spark ml，
会机器学习(主要是分类和回归类)，会图计算和流计算，有丰富的 spark sql 海量数据处理经验
3、熟悉 hive,mapreduce,熟悉底层原理和 hql 调优
4、掌握 flink 和 kafka(熟悉端到端精确一致之间逻辑原理，熟悉 cdc 和 jdbc 连接器),hbase(存储原理,lsm,热点问
题,文件合并和分割等),熟悉 tidb 数据库，并结合 kafka 和 flink 做出实时报表展示
5、熟悉 python,会 java 和 scala
6、掌握 hudi,doris,clickhouse
7、熟悉 sqoop 导入导出数据和 Azkaban,Airflow 等调度工具

项目经验

广发银行反洗钱项目描述：在大数据平台加工客户账户和校验，汇总全行交易数据，对加工好的交易数据（核心，信用卡，单证等
渠道）进行相应规则校验，提取共性生成指标，根据相应规则校验（大额规则和可疑规则）生成相应预警，下发到
oracle 生成案例，报告。
项目中负责的部分:1.作为可疑模型组长梳理需求，模型设计，架构设计(指标和规则)，分配任务，开发测试评审
2.处理 oracle 数据库涉及的所有开发，相应的优化，批次出问题的维护，直到上线批次平稳，3.一些小一点的需求:
信用卡，境内外 pos 卡，慧收款，电话地址异常标记等等
项目流程和职责：
1、使用华为大数据平台开发 FI 集群，CDH 集群
2、数据接入:文件检查->sqoop 用 sftp 上传文件->贴源层->历史层->整合层(开放使用)，数据文件来源有 ods 系
统文件或者其它系统数据库，文服下发，项目自身回流文件等
2、应用加工:主要组件(hive,spark)本项目主要使用 pyspark 加工复杂数据，清洗加工客户，账户，交易等几十张
大基表)，利用视图作为中间加工结果，最终结果落表。
3、下发流程:把最终结果合并成一个文件，下发到项目的 nas 盘
4、使用 sqlload 加载文件数据到 oracle 数据库的 ETL 表，最终使用存储过程全量或者增量同步到正式表
5、同步存储过程优化点:表 nologging 和索引删除，用 parallel 进行插入，完成后进行索引重建和统计分析。
6、分区表使用交换分区进行数据同步，定时归档
7、server 跑批出最终结果(java 写的，正在迁移中，到 tidb 做交易数据查询(数百亿量)，server 改到 tispatk 执行，
优化批次时间)
8、参与需求评审，架构规划，设计，性能优化，攻克技术难题，构建优质的代码
9、参与需求评审，根据需求合理性，开发周期，开发资源，项目排期定稿最终方案
10、概设完成需和需求分析师，测试一起做需求澄清，确认开发方案和测试场景案例无误
11、开发经过冒烟测试和 sit 后进行代码评审(加工逻辑与需求是否一致)
12、参与大数据、DB2、Oracle 存储开发调优及后台 server 数据归档 SQL 语句优化，使整个批次时间从原
来的 14 个小时缩短到 6 个小时；
13、针对客户、账户、交易等三大主题数据的分析，提炼公共代码，清洗源表，整合加工层、指标层代码，完成代
码重构，提高跑批效率，缩短批次时间。
14、严格把控概要设计、代码评审、投产评审及验证等各个环节，提高投产质量及减少代码返工，获得客户好评。
15、使用 kafka 读取数据，通过 flink 的 jdbc 连接器，sink 写入 tidb 展示或者通过 cdc 连接器做 source 读取变化
流数据做实时更新展示