1.熟悉python、shell脚本编程
2.熟悉Linux操作系统及常用的操作命令,常用的Centos 7
3.熟悉oracle、mysql、sql server等关系型数据库的存储过程、函数、触发器等的程序编写
4.熟练使用kettle 工具用于对各种业务数据的出处理,尤其是ETL过程的抽取、转换、加载过程
5.熟悉hadoop、hive、spark、sqoop、flume、zookeeper、Azkaban等大数据软件各组件的使用
6.熟悉java+CSS+HTML+JS和python编程
7.熟悉各种数据库的备份、迁移
8.熟练使用SPASS、EXCEL的软件用于数据分析,制作各种报表
9.熟悉数据仓库建仓建模
财政厅DW系统项目
1.将生产环境的数据通过数据泵备份数据库,迁移数据库,项目使用的是oracle数据库
2.通过ETL Automation Administration调度数据到数据仓库中,项目中用GreenPlum分布式数据库来作为数据仓库
3.熟悉Linux操作系统及常用的操作命令,项目中用的Centos 7
4.熟悉Python语言,有编写Python程序清洗数据的经历
5.编写python脚本用于对源数据的抽取、清洗、加载过程
6.编写shell脚本定时执行kettle的job任务以及数据的定时备份等
7.根据业务需求编写数据库函数、索引、存储过程、触发器等
8.利用kettle工具spoon抽取相关数据,增量、全量加载,数据迁移等等
9.使用spss、excel等软件制作数据透视表,生成柱状图、饼状图、各种报表等
10.熟悉hadoop、hive、spark、sqoop、flume、zookeeper等大数据软件的使用
11.熟悉 Scala 开发语言和 redis 数据库的使用
12.项目中使用到的一些工具 如 PL/SQL pgadmin4 secureCRT kettle XmanagerTeamviewer Winscp SVN 等
建筑工程企业中标查询业绩通项目
1.项目开发前期,配合开发部门的同事一起设计数据库建表以及各表中字段数据类型的确定。
2.编写Python程序用于对来自于各大网站通过爬虫技术爬回来的数据的抽取、清洗、加载
过程的处理。
3.项目中用到的是mysql,根据业务逻辑的需要,编写数据库函数,索引,触发器、存储
过程等。
4.编写定时脚本程序用于公司网站数据的及时更新
贵州某县城的水务大数据展示平台
1.使用sqoop组件对各个不同的业务数据来源做全量数据迁移到大数据平台Hive中,编写sqoop的job任务完成数据的增量同
步,hive与传统数据库oracle、mysql、sqlserver的关系型数据库的导进导出,HDFS文件与非HDFS文件的交互
2.编写shell脚本执行sqoop job的定时任务,根据业务不同也会用到python脚本
3.梳理业务逻辑,数据走向,大数据仓库的业务逻辑分层,建库建表
4.使用spark-sql操作hive对数据的读写
5.编写python脚本程序用于检查数据的一致性
6.这是个外包web项目,很多业务还没有开展,前期只是做数据准备,初步实现了web页面的数据展示,其他还有待开发