猿急送>

北京其它兼职程序员

ID：295391

铭轩语萌

大数据开发

公司信息：
北京小药药人工智能科技有限公司

工作经验：
10年

兼职日薪：
1500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
北京
海淀

技术能力

熟悉hadoop，深入理解hadoop工作原理，能够编写mr加工各种离线数据
熟悉HBase及搭建上层应用phoenix，大数据存储，高并发查询，rowkey一级索引，结合ES二级索引
熟悉Hive，基于Hive做离线数仓，自定义UDF，UDAF函数，以及Hive的优化
熟悉sqoop和datax，做离线ETL
熟悉azkaban、hera、 dolphinScheduler等常用的调度工具
熟悉kafka，理解kafka原理，能够使用kafka做实时ETL
熟悉flink、flinkcdc及开源chunjun做异构数据源数据同步（离线和实时）
熟练使用java、python、go、shell、hql等语言及ES、flume等技术

项目经验

通过大数据平台快速整合数据，数据同步、数据质控、数据加工，完成海量数据的计算与分析，并同步到es对数据检索
cdh集群：集群规划（计算节点、存储节点、查询节点、管理节点资源规划）、集群部署、cdh集群调优、完成部署文档，并对运维人员做相关技术培训
调度工具：dolphinscheduler调度工具二次开发（适配腾讯大数据平台TBDS）、debug、规划、部署
ETL：datax+hive，设计数据抽取（T+1）方案，针对不同业务特点（基于时间戳、基于主键、无时间戳无主键），通过拉链表的形式完成数据新增、更新，增加业务可信时间戳字段。
数据处理：优化低性能HQL、hive调优、UDF（数据加解密udf、数据标准化udf、新concat、row2json、array2json）、通过外表的形式打通hive和es
监控：Grafana+prometheus监控mysql、cm主机等相关性能指标
datax源码优化：1）新增插件（s3reader、s3writer、miniowriter、gpwriter）2）改造基于字符串切分数据（源码有很大问题）3）datax适配TBDS环境，完成hdfswriter、hdfsreader认证
负载均衡：基于haproxy完成hiveserver2、impalashell、impaljdbc的负载均衡