1. 熟练使用 Linux 常用的操作命令,能编写常用的 shell 脚本;
2. 熟悉 Java,Python 语言的使用,能独立编码、有良好的编程风格;
3. 对关系型数据库 MySQL 有编程经验, 熟悉数据库索引优化,对前置/后置触发器有使用过;
4. 熟悉 python常用的爬虫请求库urllib、requests、selenium自动化以及解析库 Xpath,bs4等,了解并使用过 Scrapy 爬虫框架;
5. 掌握 Hadoop 体系架构,理解 MapReduce 的工作原理,以及 Hadoop 的分布式存储机制 HDFS 原理,Yarn
工作原理,常用的调度策略等,熟练搭建 Hadoop 集群;
6. 熟悉 Hive 的架构及原理,掌握 Hive 开窗函数、系统自带函数、自定义 UDF 和 UDTF 函数,熟悉 Hive 优化、
数据倾斜问题的解决,能够使用 HQL 对海量数据进行处理分析;
7. 熟悉数据仓库分层,维度建模,事实表设计等流程,熟悉一些常用的指标计算,了解数据质量管理以及 Atlas
元数据管理;
8. 对 ETL 有成熟认识,能熟练利用 sqoop,datax完成 Mysql、HDFS、Hive 数据导入导出工作,并能编写 cron 任务完
成数据定时提取和转存(对 Dolphinscheduler、Azkanban调度框架也有使用过);
9. 掌握 Zookeeper 常用命令、熟悉 zookeeper 的选举机制、节点类型以及监听器的使用;
10. 掌握 Kafka 基本组成架构,熟悉 kafka 分区分配原则、ack 应答机制、副本同步策略、ISR 同步队列以及幂等
性+事务;
11. 熟悉 Spark 工作原理和 Job 工作流程,熟练使用 Spark SQL 做数据清洗,数据汇总,指标计算, 掌握 RDD、
DataFrame、DataSet 的相互转换以及自定义 UDF 函数,了解 SparkStreaming 与 StructuredStreaming 的原
理及区别;
12. 熟练pandas、numpy 模块做数据清洗、数据预处理,matplotlib 做可视化分析,熟悉并使用过python web框架 flask,django;
13. 熟悉常用的机器学习算法(如朴素贝叶斯
数据仓库ETL项目
项目描述: 由于公司及客户这边的数据比较杂乱,数据量较大以及数据孤立等问题,因而为了实现数据的统一化管理,并对数据进行处理加工,数据关联汇总,为后续的数据挖掘分析以及系统应用提供支撑,决定搭建数据仓库,数据拆分为结构化,半结构化以及非结构化数据,分别对各类数据进行处理分析,最终将数据落地到Hive中.
主要技术: MySQL+Hadoop+Hive+Spark+Atlas+Sqoop
项目职责:
1.数据对接以及数据字典文档记录;
2.数据清洗:日期字段处理,值映射,字段串处理等;
3.对海量数据进行处理(千万~百亿级别数据):文本数据:Excel,csv,json db数据库(Mysql,Oracle,Sqlserver)的数据处理,数据去重,数据迁移,文件拆分与合并,数据合并,数据关联;
4.数据分析:对数据进行各类维度分析,生成报表等;
5.建立数据规范,数据质量管理以及Atlas元数据管理.
用户画像档案项目
项目描述: 客户从各个方面汇聚了各种渠道的数据,这些数据包含大量的价值信息,同时也持续投入了大量的人力和物力在持续对这些数据进行整理,并形成不同的业务类型成果,但是目前,但这些治理好的数据仅仅存在Hive数据仓库中,没有实现可视化的界面直接向用户展示 .因此,本项目“用户画像档案”就是解决治理后数据形成各种库,并通过友好的界面面向普通大众用户进行使用.
主要技术: MySQL+Hadoop+Hive+Waterdrop+ElasticSearch+Clickhouse+Atlas+Hbase+Kakfa
项目职责:
1.创建画像档案Hive表以及表字段的Atlas血缘记录及跨各个存储库(Clickhouse,ElasticSearch等)对Altas数据血缘的支持;
2.对各类数据维度建模,数据关联,形成宽表,画像档案数据入库ElasticSearch,基础库数据入库clickhouse,统计生成报表入库 MySQL供系统展示;
3.文档媒体模块(文本,图片、音频,视频等数据分类管理)开发
DIA-数据智能标注项目
项目描述:随着科技的进步,大量互联网结构化、半结构化和非结构化开源数据获取入库,需要进行指定语种标注和实体关系标注的提取,为了更好的支撑业务分析工作,提升标注人员的标注效率,因此客户需要一套成熟的标注软件平台。标注平台分为文本标注、图片标注以及部分定制化的功能.
主要技术:MySQL+SprintBoot+Mybatis
项目职责:
1.前期相关技术调研;
2. 参与需求讨论,系统架构设计、MySQL数据库表设计;
3.后端接口API开发,代码优化、SQL查询性能优化等