掌握Scala、Python、Java语言及其技术栈;
掌握大数据平台设计与架构实践;
熟悉Spark、Hadoop、Hive、Kafka、Flink等常用大数据生态系统、原理及优化、核心源码;
熟悉数据仓库建模,离线、实时大数据系统开发;
熟悉Web后端架构与开发,了解Web前端;
快速Troubleshooting能力,英语CET4:568,CET6:472。
项目一:某大型央企大数据解决方案。项目设计: 基于CDH搭建大数据平台,平台组件包括数据采集,传输,存储,分析,查询等。根据业务需要进行数据ETL,分析,最终到应用成支持BI系统。 基础架构研发: 集群搭建,组件兼容性。 业务研发: 业务数据接入,ETL,业务指标研发等。 运维: 大数据平台运维,业务代码相关运维,不含机器基础运维。 交接: 基础文档,系统架构讲解,组件功能,应用等。
项目二:滴滴运营数据项目,包括天机(司机收入分析与诊断)、POPE(司乘活动效果评估)、Insight(城市运力数据)等,旨在为公司运营决策提供科学的数据支持,为乘客与司机提供向导。各数据产品涉及订单、司机、乘客、城市、运营活动等多个主题,支持多维度筛选、人群圈定、即席查询等,给用户展示可视化图表、漏斗数据。经过产品需求分析、按时完成了离线与实时数据开发、数仓及其表结构设计、查询引擎(Presto、ES、Druid等)选型与API、前端联调等研发工作,保障了数据产品的迭代开发效率、可用性与稳定性。使得前端页面对大数据即席查询的响应时间不超过3s。对大数据量的任务(TB、数亿级别)进行存储结构与性能优化,缩短任务执行时间,提高了自集群资源利用率。
项目三:基于百度云提供的基础服务建立百度视频大数据平台,实现公司业务数据计算与分析。项目内容包括:网站数据采集与传输、ETL设计与开发(适配各类非结构化数据)、数据仓库设计、任务调度系统开发(基于Azkaban)、数据报表以及元数据管理与监控等。项目已上线,稳定运行,实现了结构化与非结构化数据统一接入数据仓库,其中非结构化数据源ETL准确性高达十万分之二。为上层的数据分析提供精准稳定的数据服务,使产品、运营、编辑等基于数据做出正常决策。
角色 | 职位 |
负责人 | 大数据研发 |
队员 | 后端工程师 |
方案设计: 拟基于CDH搭建大数据平台,平台组件包括数据采集,传输,存储,分析,查询等。根据业务需要进行数据ETL,分析,最终到应用成支持BI系统。 基础架构研发: 集群搭建,组件兼容性。 业务研发: 业务数据接入,ETL,业务指标研发等。 运维: 大数据平台运维,业务代
基于百度云提供的基础服务建立百度视频大数据平台,实现公司业务数据计算与分析。项目内容包括:网站数据采集与传输、ETL设计与开发(适配各类非结构化数据)、数据仓库设计、任务调度系统开发(基于Azkaban)、数据报表以及元数据管理与监控等。项目已上线,稳定运行,实现了结构化与非结构