1、具有2年大数据开发经验;
2、熟练掌握 Python、Java 语言,用于做后端开发;
3、熟练使用 MySQL 数据库,熟练运用 SQL 语句;
4、熟悉大数据工具 Hadoop、Hive、HBase、Kafka、Spark、Redis 的使用,了解 Flink;
5、了解机器学习算法,如决策树、聚类算法;
6、掌握 FineBI 数据可视化工具的使用;
7、掌握 Sqoop、Flume 大数据 ETL 工具的使用;
8、了解 excel 表格的使用,能进行excel的日常使用和开发。
新零售数据仓库
内容:
项目是基于大型连锁新零售业务的数据研发的大数据分析平台,
dolphinscheduler 负责调度工作流、Spark 计算相关指标、Sqoop 将数据导入导出,数仓分析的主要主题有销售主题、商品主题、用户主题,以此来把握新零售业务的运营状况,为决策提供数据依据。
项目架构:
此平台上,构建有 HDFS,YARN,zookeeper,sqoop,Spark,Hive,FineBI 等相关的
大数据组件,同时为了提升分析的效率.引入 Spark 来进行分析处理操作,
使用 FineBI 实现图表展示操作,整个分析工作是一个周而复始,不断的执行,
采用 dolphinscheduler 完成任务的调度工作。
我的项目职责:
1、用工具导入数据到数仓集群中,用定时调度流完成数据导出操作;
2、设计数据仓库分层结构:完成数据仓库各层的表建模和分析计算工作,用拉链表解决历史快照的问题,确保分析时的数据都是有效数据;
3、处理数据倾斜、内存溢出、优化配置等场景;
4、使用执行计划 explain 查看 SQL 任务执行是否要优化,使用分区、分桶、ORC 索引、MapJoin 等提高查询效率;
5、编写 Shell 脚本,调整工作流执行的顺序,确保整个工作流程科学有效。
业绩:
1、帮助公司更合理的进货决策,使成本降低,并高效利用了有效的成本;
2、提高了公司的销售额和履单率。