hadoop生态环境部署
熟悉数据采集,清洗,计算等数据开发流程
掌握mysql,psql,redis等等数据库
接口开发:python flask结合sqlalchemy,java jdbc
掌握airflow,azkban等任务调度工具
crm系统接口开发:
采用flask结合sqlalchemy,封装接口,对postgres数据库进行增删改查。
用户行为告警数仓搭建:
hadoop+postgres+airflow+hive+spark+datax
嵌套json采用递归方法解析为sql,接口开发,采用flask轻量级框架,实现标准的restful。
标准的数仓开发,分层4层,ods,dwd,dw,st。ods层通过datax同步数据到数据仓库,dwd对数据进行清洗,dw轻度聚合,st指标展示,用airflow每日进行调度。