1.熟悉 Linux 系统,掌握常用的 shell 命令,能在 Linux 系统下搭建开发环境;
2.熟悉 Hive 的调优,了解数仓分层及数据模型设计;
3. 熟悉关系型数据库 Mysql,Oracle,Vertica,hana,sqlserver以及 Nosql 数据库HBase,Redis 等;
项目描述:
在智能营销、运营、风控、财务等方向的模型建设上,经过多年的沉淀积累,
加工的特征数目多达 1w+,这些特征分散在 GP、TD、BDAP 等不同的数据库里,
缺少统一管理,存在重复、歧义。随着模型的数目、复杂度的逐步增加,特征数
目也会指数型增长,由此带来的特征复杂度更加不可控。 考虑上述特征加工及
存储情况,需要建设统一的特征平台,打破目前烟囱式特征加工的现状。
责任描述:
1、负责需求调研,根据数据划分主题,确定特征数仓的分层架构
2、确定 etl 开发方案,重构代码,优化运行脚本
3、根据主题进行维度建模
4、负责核对数据,保证下游数据的准确性
5、负责一部分 oozie 调度,运维工作