熟悉Hadoop、Hive、Spark、hbase等大数据生态圈技术,有一定的MR调优和spark调优经验。
熟悉了解flume、sqoop、azkaban、seatunnel等大数据相关组件。
熟悉Spark开发流程,对dateframe 、sparkSQL有一定的经验。
在 flink、kafka、hbase、clickhouse上有一定的经验。
熟悉Linus系统基本操作命令,及shell脚本编程
了解使用 hudi、dlink
项目描述:通过seatunnel将数据源mysql、sftp、公众号接入数仓ods层,完成对dw层的开发,根据dw相关表进行加工提供相关view给到下游进行人群圈选,最终进行广告投放。
项目描述:dashboard主要包含:活动报告/报表,标签广场,生意看板,id资产等几个模块,具体从上游数仓中获取数据,根据相关的计算方式进行区数并计算,并将计算结果推送到后端mysql,通过MQ消息通知后端,由后端和前端渲染;人群导出主要从上游数仓取数,经过一些格式的转换后,过滤后写入回写至hdfs或者压缩成zip包上传sftp。
项目描述:原神主要是从web api通过flume分别采集订单流和发券流,落入kafka后起flink job 相关过滤、清洗、加字段等操作,分别写入hbase后,再进行两条流的Join判断核销情况,最终结果写入clickhouse。