熟悉 hadoop ,hbase,kafka,spark,scala, TiDb 大数据技术栈
熟悉数据分析ETL过程 , 熟悉常用数据库sql编写 ,数据库元数据解析,数据质监监控
经历大数据部门从零建立开始过程 ,熟悉数仓建模 和OLAP场景各种概念,
熟悉dolphinscheduler到平台 ,了解azkaban ,
有能力自己部署CDH, 以及hadoop生态组件。熟悉在linux环境下排查问题,安装软件流程。
联合利华千人千表二期功能开发
品类销量:KA\BC线上线下销量接口
品类销量:KA\BC线上线下各产品线、品类销量接口
并编写 linux-shell导出csv到ftp共用路径给下游供应商
使用技术栈: hive-sql ,spark-sq ,linux-shell
一级销量gsv的national报表任务报表( 使用python编写数据质量监控和发送邮件程序)
星巴克dmp1.0项目迁移验收
这个项目是之前的星巴克供应商做的,维护这个模块的人离职了,我承接并开发运维未完成的需求。
将 hive中的数据算好之后推送 hbase, kafka, http等各个数据源完成下游对接。
项目技术栈: java+scala +spark
业务模块 备注
会员天气信息推送 使用Sqoop从上游接入pg库相关数据 再和现有已接入的数据进行关联计算
SRKIT_Expire_Notification ( Srkit过期提醒)
推送数据到kafka
月度账单 计算星巴克会员注册年限,,会员等级,账单相关指标数据 会员好礼星和等级星获得和过期情况
每个月初
2021年度账单会员标签计算 除月度账单中基本的标签外,另外又有一些新的消费数据类标签
例如:每月最常去门店,最常去城市,新解锁城市
Python爬虫
使用python爬虫 爬取平台上元数据信息,并批量生成数据质量监控脚本。
Python+selenium 抓取at系统 用户列表
使用 linux-Shell和python抓取并解析神策平台上对接的用户漏斗数据并导入仓库,供下游绘制tableau报表
公司内商业需求 ,不宜截图过多展示,并做了打码处理 主要是针对c端/b端/职位 3个画像进行重构开发,c端,b端 画像大概各有60+个 指标 ,职位画像10个指标 , 原本需求 均使用 spark-java代码 实现 ,本人 负责重构,将所有java代码改为 sql脚本,并使
本人在 上海某数据服务公司任职期间,负责某日化品销售公司数据开发工作, 截图为千人千表项目截图,以及某些指标开发代码示例