猿急送>

成都其它兼职程序员

ID：330861

Fzad

高级大数据开发工程师

公司信息：
亚信

工作经验：
5年

兼职日薪：
800元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
成都
高新

技术能力

能够熟练使用大数据生态主流框架：hadoop，hive，kudu，impala，presto，hbase，es，clickhouse，redis，mysql，spark，flink，dolphinSchdule等等。
能够熟练使用的开发语言：java，scala，shell，python，sql。

项目经验

项目:开云项目产品交付项目架构：Hadoop+Spark+Flink+Kafka+Mysql+Hive+Kudu+Impala+Presto+DolphinSchedule+Prometheus...... 项目描述：负责开云项目产品交付过程中的定开工作，主要有数据接入、同步、解析、ETL 清洗、outbound 到下游，用户 oneid 计算规则设计和代码实现。职责描述： 1. 用户数据在入库过程中需要进行 AES 加密处理，而加密密钥存储在阿里的 kms 服务中。编写自定义 udf 函数，实现在 hive、impala 中可以方便的进行加解密。 2. 使用 SparkSteaming 消费 kafka，数据为 json 格式。按照业务要求进行解析，获取目标字段以后进行 etl 清洗，存入对应的表中（13 张）。实时程序开启背压机制，手动维护 kafka offset 提交。 3. TaskMDM 数据需要实时导入到产品中，使用 sparkstreaming 消费 kafkak，回填品牌后进行业务过滤，然后存入 hvie 表，同时通过调 http 接口的方式，将数据导入到公司产品中。调接口的过程中根据响应体信息设置重试机制。 4. 用户退订、取关的数据需要 outbound 到下游，使用 spark 查询 mysql、hive、kudu 中的表进行关联，根据业务需求将退订、取关的数据捞取出来存到 kudu 中。然后读取结果表，将新增的数据发送到 kafka，发送成功后回填 kafka 的 offset、partition、timestamp 等信息。 5. 基于阿里云的实时计算平台，进行 FlinkSql 开发，自定义加解密的 UDF 函数，将部分实时程序迁移到阿里的 Flink 实时计算平台。 6. 用户员工数据表需要从 MA 同步到 CDP，本质是将数据从一张 mysql 表同步到另一张 mysql 表，但是同步过程中需要将敏感字段进行 AES 加密，并且有业务的 etl 清洗和过滤逻辑，无法使用阿里 dts 服务。于是将待同步的 mysql 表的 binlog 日志发到 kafka，使用 sparkstreaming 消费并解析 binlog 日志，将数据加密清洗后同步到目标 mysql 表中。 7. 用户数据存在身份和用户一对多的问题，比如多个 clientId 的 mobile 是相同的，需要按照客户的比较规则来确定身份归属，这套规则复杂且不定期有变动。基于这个背景，需要提高 oneid 计算灵活性，方便随时更新 oneid 计算规则。于是设计了一张配置表，能够自定义计算方式，其中包括选择字段、优先级、ETL 规则。通过读取配置表，确定 oneid 计算的类型、规则、版本，然后进行计算。计算过程中需要从 mysql、hive、kudu 中获取用户的历史购买金额、历史购买频率、注册店铺、关注时间、是否会员等信息，然后进行综合排序，最后取第一名作为身份归属。 8. 以上任务都配置到 DolphinSchedule 上进行调度管理，针对每 10 分钟执行一次的任务，为了避免上一次没有执行完成下一次也提交，从而造成任务积压的情况，编写了 shell 监控脚本+conditions 配置，使得任务每次执行前都会判断上一次是否执行完，上一次执行完才会提交，避免产生任务积压。此外，还编写了监控对数脚本，利用企微 API 每天将对数结果播报到企微群中。