猿急送>

北京后端兼职程序员

ID：165345

蚂蚁

大数据开发工程师

公司信息：
一下科技

工作经验：
4年

兼职日薪：
800元/8小时

兼职时间：
下班后
周六
周日

所在区域：
北京
朝阳

技术能力

> 熟悉Hadoop（HDFS、MapReduce）机制原理，有MapReduce项目开发和调优经验，会搭建Hadoop集群。
> 熟练掌握Hive、Kylin。熟悉HQL 开发及优化，有UDF开发经验，熟悉Kylin cube的优化。
> 熟悉Flink、Spark、Storm等计算框架，有丰富的项目开发经验。对Flink、Spark部分源码有一定研究。
> 熟悉Kafka 、Zookeeper、Sqoop等技术，有较多的开发经验。
> 熟悉PostgreSQL、MySQL等关系型数据库，熟悉sql、数据库管理、设计和优化。
> 熟悉 Redis 、Hbase 等NoSQL数据库。熟悉Hbase的API和Hbase二级索引的应用，会搭建Redis集群，熟悉Redis的数据类型和 API操作。
> 熟悉数据仓库设计和数据建模，有过不同行业或企业的整体数据仓库的设计经验，对整体架构、规范制定、开发流程和技巧、数据质量把控等都有一定深度的体会和实践
> 3+年的Scala , Python , Java 等编程语言开发经验。
> 熟悉Linux操作系统，shell编程。开发过ETL调度相关的脚本程序。

项目经验

2018/01—至今一下科技 BI-Matrix数据平台
职位：大数据开发工程师
职责：主要负责公司BI系统ETL流程的实现和开发。负责日志解析，参与秒拍、波波视频等日志数据仓库模型的设计及开发，根据公司业务需求完成专题的数据分析以及各种实时、离线的报表生产工作，为公司决策提供科学的数据依据。
工作成绩：
1. 设计和实现后台数据ETL流程及搭建公司数据分析系统。
2. 完成公司数据仓库设计开发。支撑matrix数据系统，完成了100多张离线与实时的
数据报表，涉及产品、渠道、运营等多个业务线的复杂数据需求，优化公司产品的推广和运营方向，推动日活快速增长，目前日活跃用户已近两千万。
技术创新主要包含：
1). 利用（Spark-core处理 + Spark-sql输出）的日志解析新方案,将解析的日志动态分区。大大提高了后续的数据使用效率。
2). 推动实现了公司数据仓库模型从0到1的突破。完成了包括活跃、曝光点击、拍摄、播放等主题域或复合主题域的30多个宽表的设计与开发。简化了业务处理逻辑，解决数据重复计算的低效率问题（处理脚本效率最高提高80%），也为后来公司开发的自助查询系统奠定了的数据基础。
3). 自主开发了flink-redis 和flink-mysql的实时Sink模块，实现了flink 的两阶段提交，稳定保证了flink与外部交换的Exactly-Once语义。采用checkpoint 机制，支持实时程序数据无错重启。
4). 采用Python语言完成了事件漏斗系统的后端设计和开发。支持用户通过简单配置自定义选项，查询所需数据。覆盖了包含pv，uv、用户行为转化等场景，使得20%的小需求可以通过用户自助查询来满足。进一步提升了需求响应速度。

2016/06- 2017/12 北京东方国信-中国电信电子渠道大数据精准营销服务支撑项目
职位：大数据开发工程师
职责：主要负责中国电信数据采集系统的流程设计和开发优化。参与设计用户上网日志数据的清洗识别方案，负责开发相应的解析程序，并为各项识别规则提供技术支持。负责用户上网日志数据仓库模型的设计，同时根据客户需求完成各大专题的数据分析工作。
工作成绩：
1. 设计DPI数据（用户上网日志）清洗识别的全套方案，开发日志清洗、识别与稽核程序。参与数据仓库模型的设计，根据客户需求完成各大专题的数据分析工作。
2. 完成了流量轨迹系统的实时日志解析，支撑DashBoard多维度数据统计需求。
技术创新主要包含：
1). 解决了大量小文件导致的日志解析问题。由于解析规则特别大，把原先通过mysql匹配，替换为预加载解析规则到redis的方案，提高了解析速度，使日志解析时间节省20%。
2). 基于用户上网行为日志的深度挖掘，建立完备的用户画像。结合多维度数据分析，能灵活地为各种业务推广提供数据方案。如依于用户流量轨迹分析的流量套餐推荐；依于用户终端分布分析的终端换机预测等；
3). 建立用户位置轨迹模型，能实时的根据商户位置筛选出附近用户，大大提高了广告个性化推送的精度。