熟悉CentOS、Ubuntu等Linux系列操作系统;
熟悉Oracle、hive、MySQL等数据库的基本操作、复杂查询语句的编写,Oracle的一些调优操作,如SQL语句优化、建立索引,设置分区;数据库最为熟练的是Oracle;深入学习过Oracle数据库编程,对存储过程、游标使用、函数编写、拉链表、定时任务的创建有过实际应用。
熟悉Python、shell编程,例如对数据文件进行数据类型转换、处理,接口数据的接收与处理,能够高效的解决大数据处理的一些实际需求,也能编写脚本解决实际问题,例如解决数据库迁移时的批量建表,非结构化数据的转换。
熟悉Hadoop生态系统的hdfs,mapreduce,yarn,hiveSQL,sqoop,了解spank,flume,kafka,Zookeeper的一些使用,大数据集群上自己独立安装过Hadoop的集群,清楚数据从业务系统到Hadoop集群再到业务数据库展示的整个过程和涉及到的相关工具使用。
熟悉ETL工具Datax,Kattle,Logstash
熟悉报表开发工具FineReport,QuickBI,SmartBI,了解powerBI,FineBI
个人职责 :
负责使用ETL工具进行采集、清洗和维护数据到数据库,确保数据的准确性和可靠性;
负责分析企业信息的完整性与有效性,为系统数据库提供优质基础数据;
通过多个业务系统隐患数据,识别并评估企业存在的安全隐患,为风险预防提供数据支持;
定期分析企业安全检查数据,评估安全管理措施的实施效果,为持续改进提供决策依据;
利用统计方法对企业安全设备的危险级别进行深入分析,危险级别定级,为安全设备的合理配置和更新提供指导。
编制系统使用手册,提供辅助讲解,确保用户能够快速掌握系统功能。
项目架构:
Kettle+Sqoop+Hive+Hdfs+Azkaban+Oracle + FineReport
技术运用 :
在hive数据库中对数据进行进行对应SQL建模;
利用数据抽取工具kettle,Sqoop采集第三方业务数据的一些法律依据,法规文件,隐患数据,行业类型数据等;
编写Python脚本对数据做清洗,例如进行数据去重,空值填充,错值替换等操作后将数据写入到数据平台的数据库;
使用调度工具azkaban做定时的数据抽取和数据清洗脚本的定时调用;将数据从hive集市层(DM)抽取到Oracle数据库,将Oracle作为转换数据库;
使用FineReport做报表展示及驾驶舱设计;
项目二:
项目架构:Sqoop + Hive + hadoop + Shell + Hdfs + Python
项目背景:
绵阳农商银行储蓄的项目,项目是为了分析用户地区、时间、分行以及不同储蓄卡类型等维度上被用户使用的频率、数据增长的同比环比数据,用户对于储蓄卡的使用,申请,资金的数据分析,对用户的开卡、销卡、使用卡的场景等进行模型设计,最终用于用户业务画像的数据支撑。
整个项目是搭建在hive数仓上的,我是负责客户、产品事件等模块的对接指标进行集市层数据高度汇总操作的,所以平时都是使用hive数据库通过sql完成指标详情计算的。
例如我做的指标数据的统计分析,是针对人均新增储蓄存款、储蓄的基数、日均余额、时点余额以及对应比率的一个计算,围绕不同的储蓄卡的类型、不同的地区、不同的时间等进行数据的统计,计算月、季度、半年、年这四个时间范围的数据,以及数据的累计还有数据同比和环比的内容等。
项目职责:
根据业务指标使用SQL对数据进行汇总和计算,例如对费用预算达成率、个人中间业务收入计划完成率等指标进行时间、地区、卡类、入账出账等数据的计算统计,主要报表体现为时点值和累计值的展示等。
对计算过程中出现的服务器资源不足、数据倾斜等问题进行优化,使用临时表等数据结构进行hive调优等;
通过Azkaban对封装好的Shell脚本进行调度,并且分析调度过程中的数据异常问题等;
使用Python对复杂的计算过程进行优化,通过UDF函数简化SQL的逻辑过程
角色 | 职位 |
负责人 | 数据开发工程师 |
队员 | 产品经理 |
队员 | UI设计师 |
队员 | 前端工程师 |
队员 | 后端工程师 |