猿急送>

北京其它兼职程序员

ID：325474

星宿᭄゛ঞ

大数据开发工程师

公司信息：
江西电信信息产业有限公司

工作经验：
4年

兼职日薪：
500元/8小时

兼职时间：
周六
周日
可工作日远程

所在区域：
北京
海淀

技术能力

掌握Linux 基础操作命令，能够编写简单的 Shell 脚本
熟练Mysql，Oracle等主流数据库，能够基于MySQL等数据处理引擎进行数据开发
熟悉Hadoop组件的Hdfs读写流程、MapReduce计算流程、Yarn资源调度
掌握Hive窗口函数及内置函数的使用，能够基于Hive进行数据开发
熟悉Flink流计算框架，有过实时项目经验熟悉Flink内部运行机制
熟悉Spark架构的执行流程以及工作原理，以及RDD之间的依赖和Spark的容错机制
熟悉Hbase架构原理及读写流程、rowkey设计原则、Hbase性能优化
掌握Kafka基本原理，使用Kafka消息中间件存储并消费数据
熟悉使用Flume完成日志采集，使用Sqoop完成义务数据的导入
熟练使用阿里数据中台DataWorks DI、DataHub等数据接入组件
熟练Azkaban、sqoop、dataX等开源的ETL调度、同步工具
熟悉Clickhouse、Kylin、Presto等OLAP引擎的原理以及源码
熟练使用FineBI、Sugar等可视化报表组件
熟悉数据仓库建设和维度建模，有较丰富的离线或实时数仓建设和数据 ETL 设计开发的经验

项目经验

通过Flume程序实时监控采集商城日志数据文件，实时采集到kafka作为原始日志数据
使用FlinkCDC实时迁移Mysql中的用户行为数据存到kafka中构建ods层
调用重分区算子，rescale，rebalance，shuffle解决kafka的topic分区之间数据不均匀，防止数据倾斜
负责构建dwd层通过Flink应用程序使用操作符对ods层数据进行清洗，过滤等操作
使用redis作为热点数据的旁路缓存，使用Flink的异步IO实现对外部系统的异步访问,提高程序性能
构建DWS宽表：通过预加载，双流join，lookupjoin实现维度关联，将宽表数据存入Clickhouse
使用异步IO实现连续发送多个请求，提高并发效果，减少多请求等待带来的消耗
通过ReplacingMergeTree保证最终一致性，查询时的sql语法加上去重逻辑，保证ClickHouse的一致性
利用web ui定位，查看火焰图平顶，并分析GC日志，调整资源解决Flink反压
ADS层指标：产品总数，上架商品的sku/spu数，交易成功指标数，浏览下单数，支付买家数等
使用DataV调用接口进行可视化报表展示
参与将项目部署到Flink on Yarn，通过WebUI查看资源使用，以提高集群的资源利用率
负责阿里云离线项目的整体架构设计和实施，包括技术选型、系统数据流程设计等
使用Flume等日志采集工具进行日志采集和聚合
利用MaxCompute等大数据计算框架进行数据处理和分析，为项目提供数据支持
使用Quick BI、DataV等工具进行数据可视化展示，为项目提供直观的数据视图
负责数据的安全性和隔离性，采取必要的措施防止数据异常和敏感数据泄露
设置定时调度任务，对项目进行监控和管理，确保项目的正常运行