● 掌握Python语言,精通MySQL、Oracle等关系型数据库,熟悉存储过程。
● 熟悉HiveSQL,能够使用Hive进行海量数据查询和分析,Hive调优,解决数据倾斜问题。
● 熟练使用SparkSQL,掌握Spark的数据结构和计算任务执行流程,具备Spark优化能力。
● 基于Kettle/DataX/Sqoop等ETL工具,高效进行数据迁移,保证数据质量。
● 熟悉Hadoop生态圈,熟悉大数据相关组件。
● 熟悉数据仓库分层与数仓建模设计流程。
● 熟悉Spark,能熟练使用SparkSQL进行数据处理,能进行Spark调优。
● 熟悉Kafka的核心原理,能够整合Spark和Kafka实现流式数据的处理和分析。
● 熟悉Zookeeper集群搭建管理以及选举机制,保障分布式系统的高可用性和稳定性。
● 熟悉Linux操作系统,掌握常用的Linux命令,执行shell脚本
● 了解SparkML,能使用常见的机器学习如KMeans算法、决策树算法进行数据挖掘。
● 了解DophinScheduler自动化调度工具。
● 熟练使用Git进行代码管理和版本控制,确保团队协作的高效性。
项目一 全息人寿客户画像
项目描述 :
全息人寿保险的用户画像项目,通过对业务数据库中的保单数据、理赔数据,精算数据在内的历史用户数据以及Nginx日志和移动埋点日志采集的实时数据进行清洗、加工、处理,进行指标分析,给用户打上大量的标签,根据用户的目标、行为和观点差异将用户分成不同类型,从而形成人物原型,实现用户信息的标签化,实现公司的精准营销与风险评估。
技术选型 :
Spark+Elasticsearch+Kafka+Zookeeper+Hive+Flume+
Dolphinscheduler+MySQL
项目职责描述 :
1. 负责实现从Hive到Elasticsearch的数据集成,监控并优化数据同步流程,确保数据一致性。
2. 利用 Spark框架,高效读取Elasticsearch中的数据,开发业务指标计算。
3. 应用分类、聚类等机器学习算法,对用户行为数据进行深入挖掘,计算并预测用户行为标签。
4. 参与用户标签体系的设计工作,制定标签分类、计算逻辑与更新策略。
5. 实现数据可视化报表,直观展示业务数据趋势与关键指标,为决策提供有力支持。
项目二 新零售数据仓库建设项目
项目描述 :
项目从零开始,全面覆盖了数据仓库的规划、设计、实施到维护的全流程。设计数据仓库的整体架构,进行主题划分,数仓分层,梳理业务需求,明确指标含义,将数据迁移到HDFS上,使用先进的大数据架构和技术栈,使用HiveSQL,分析不同主题下的不同维度的指标,实现零售业在销售、会员管理、供应链运作以及商品需求等多方面的精细化分析。为企业高层做决策提供数据依据,加速市场响应速度。
技术选型 :
Hadoop+Hive+MySQL+ SQLServer + DataX/DataX-web+ Presto+Dolphinscheduler
项目职责描述 :
1. 参与数据仓库的整体架构设计,包括主题划分、数仓分层以及流批实现方式等。
2. 参与业务需求梳理,明确具体指标的含义和计算口径,并编写详细的需求文档。
3. 使用DataX对业务数据进行抽取,将业务数据高效、准确地迁移到HDFS中。
4. 使用HiveSQL实现对库存主题的从ODS层到ADS层的需求开发。
5. 针对领导或运营的临时需求,基于宽表及数据各层进行需求开发。