1.熟悉hadoop的模块应用;理解hdfs分布式文件存储原理及mapreduce的计算模型;
2.熟悉sqoop、oozie、等大数据框架的使用;
3.熟悉hive架构并能够根据业务需求编写HQL语句进行查询,统计及性能优化,熟悉hive的自定义函数UDF;
4.熟悉HBase分布式数据库的数据模型、存储原理、体系结构、熟悉使用Hbase和Hbase 表的rowkey设计及避免数据热点的发生;
5.熟练使用sqoop数据传输工具进行关系型数据库与hdfs/hive之间进行数据导入导出;
6.熟悉linux系统操作及shell脚本程序;
7.了解sping、spingMVC等框架项目开发;
8.了解maven项目开发管理架构;
9.了解oracle、mysql,pg,mongdb数据库;
10.了解前端html5、css、javascript技术、js基本函数构建及jquery、angularjs框架应用;
某公司大数据库环境基本搭建及orcle迁移etl项目
开发环境: UE+oracle+Shell+hive
系统架构: Oracle\PgSql+Sqoop+Shell+Hive+Hbase+Oozie+hadoop
项目描述:
该项目主要是功能将运行在oracle上的etl过程迁移至hive库运行,目标就是要下线oracle库,用hive结合pg库代替,主要涉及就是ticms(oracle库)的库存数据迁移至hive和sequence在hadoop平台换一种方式实现一遍
责任描述 :
1.数据迁移,主要使用sqoop将tcims库的库存数据迁移至hive库
2.etl过程重造,原先的etl过程是通过批次状态来控制数据的处理过程,迁移至hive库要重新实现,针对事物处理要使用hive的方式实现,
3.数据验证,主要验证数据是否一致,补跑跑批的方案处理,事物处理是否实现,业务时效能否达到,
4.迁移原因:oracle成本高,oracle跑不动,数据处理慢用。