Python语言编程,java语言 熟练
R语言,Matlab,SPSS,Eviews数学建模 精通
Mysql、Oracle关系型数据库 精通
Redis、MongDB非关系型数据库 熟练
Linux系统开发,数据结构和算法 精通
MapReduce,yarn 精通
hadoop、hive、kafka,flum,hbase,spark,zookeeper 熟练
2021.03—2021.06 上海联通大数据平台 运维+需求开发
业务描述:
接收业务支撑系统、运营支撑系统、管理支撑系统及决策支持系统的数据接口,通过hadoop平台、hive、oracle、行云(自研)进行数据采集、加工、存储,供海视、海盾等下游系统使用。
数据流向:
底层数据在hive中,流向oracle做数据加工,oracle的数据同步在hive上累积,报表等数据流向行云做接口展示。
责任描述:
1、 保障上海联通大数据系统日常数据的正常生产,主要有接口侧、流程侧的问题以及集群资源的问题
2、 有开发需求时,完成建表、修改脚本、血缘配置及配置流程
3、 负责维护用户中心,保障每天mysql存过的正常运行,以及新用户的批量后台导入
遇到的问题及解决
1、 接口采集失败,lftp进去接口机看文件是否存在,若存在则可能接口文件有问题,如存在脏数据发生了串行等,用awk命令处理文件,找到问题行并通知重发接口;若确认无文件,添加假日志触发后续
2、 Mr任务发生code2报错,一般为hive shell指令的集群节点内存耗尽,需重启节点后再重新触发mr任务
3、 流程配置好时,第二天未能触发,一般为前置触发节点配置错误或者是血缘配置有问题
Part: 2 上云(数据开发) 2021/03 ~ 2021.06
业务描述:
相应国家的去o计划,将原本储存在hive及oracle中的底层数据、加工逻辑等迁移到行云数据库(CirroData 自研)以及数据治理平台(数据云 自研)上,从资源管理、数据建模、数据集成、统一调度等实现一整套地数据开发过程。
项目架构:
工作职责:
1、 一期迁移本地oracle的存过及hive中的sql脚本到数据云中,并配置调度(新BDI),以及操作自研的报表工具(O2BI)配置报表
2.跟随导师学习,了解上云底层。