> 熟悉Hadoop(HDFS、MapReduce)机制原理,有MapReduce项目开发和调优经验,会搭建Hadoop集群。
> 熟练掌握Hive、Kylin。熟悉HQL 开发及优化,有UDF开发经验,熟悉Kylin cube的优化。
> 熟悉Flink、Spark、Storm等计算框架,有丰富的项目开发经验。对Flink、Spark部分源码有一定研究。
> 熟悉Kafka 、Zookeeper、Sqoop等技术,有较多的开发经验。
> 熟悉PostgreSQL、MySQL等关系型数据库,熟悉sql、数据库管理、设计和优化。
> 熟悉 Redis 、Hbase 等NoSQL数据库。 熟悉Hbase的API和Hbase二级索引的应用,会搭建Redis集群,熟悉Redis的数据类型和 API操作。
> 熟悉数据仓库设计和数据建模,有过不同行业或企业的整体数据仓库的设计经验,对整体架构、规范制定、开发流程和技巧、数据质量把控等都有一定深度的体会和实践
> 3+年的Scala , Python , Java 等编程语言开发经验。
> 熟悉Linux操作系统,shell编程。 开发过ETL调度相关的脚本程序。
2018/01—至今 一下科技 BI-Matrix数据平台
职位:大数据开发工程师
职责: 主要负责公司BI系统ETL流程的实现和开发。负责日志解析,参与秒拍、波波视频等日志数据仓库模型的设计及开发,根据公司业务需求完成专题的数据分析以及各种实时、离线的报表生产工作,为公司决策提供科学的数据依据。
工作成绩:
1. 设计和实现后台数据ETL流程及搭建公司数据分析系统。
2. 完成公司数据仓库设计开发。支撑matrix数据系统,完成了100多张离线与实时的
数据报表,涉及产品、渠道、运营等多个业务线的复杂数据需求,优化公司产品的推 广和运营方向,推动日活快速增长,目前日活跃用户已近两千万。
技术创新主要包含:
1). 利用(Spark-core处理 + Spark-sql输出)的日志解析新方案,将解析的日志动态分区。大大提高了后续的数据使用效率。
2). 推动实现了公司数据仓库模型从0到1的突破。完成了包括活跃、曝光点击、拍摄、播放等主题域或复合主题域的30多个宽表的设计与开发。简化了业务处理逻辑,解决数据重复计算的低效率问题(处理脚本效率最高提高80%), 也为后来公司开发的自助查询系统奠定了的数据基础。
3). 自主开发了flink-redis 和flink-mysql的实时Sink模块,实现了flink 的两阶段提交,稳定保证了flink与外部交换的Exactly-Once语义。采用checkpoint 机制,支持实时程序数据无错重启。
4). 采用Python语言完成了事件漏斗系统的后端设计和开发。支持用户通过简单配置 自定义选项,查询所需数据。覆盖了包含pv,uv、用户行为转化等场景,使得20%的小需求可以通过用户自助查询来满足。进一步提升了需求响应速度。
2016/06- 2017/12 北京东方国信-中国电信电子渠道大数据精准营销服务支撑项目
职位:大数据开发工程师
职责:主要负责中国电信数据采集系统的流程设计和开发优化。参与设计用户上网日志数据的清洗识别方案,负责开发相应的解析程序,并为各项识别规则提供技术支持。负责用户上网日志数据仓库模型的设计,同时根据客户需求完成各大专题的数据分析工作。
工作成绩:
1. 设计DPI数据(用户上网日志)清洗识别的全套方案,开发日志清洗、识别与稽核程序。参与数据仓库模型的设计,根据客户需求完成各大专题的数据分析工作。
2. 完成了流量轨迹系统的实时日志解析,支撑DashBoard多维度数据统计需求。
技术创新主要包含:
1). 解决了大量小文件导致的日志解析问题。由于解析规则特别大,把原先通过mysql匹配,替换为预加载解析规则到redis的方案,提高了解析速度,使日志解析时间节省20%。
2). 基于用户上网行为日志的深度挖掘,建立完备的用户画像。结合多维度数据分析,能灵活地为各种业务推广提供数据方案。如依于用户流量轨迹分析的流量套餐推荐;依于用户终端分布分析的终端换机预测等;
3). 建立用户位置轨迹模型,能实时的根据商户位置筛选出附近用户,大大提高了广告个性化推送的精度。