l 熟悉掌握 python、java 语言开发,熟悉掌握 javaee、javaweb 开发;
l 熟悉掌握 linux 开发环境,熟练掌握 shell 开发;
l 熟悉了解 mysql 关系型数据库,熟练掌握 SQL 开发,数据治理;
l 熟悉使用 hadoop/hive/kafka 数据框架;
l 了解数仓开发和建模,掌握 ETL 原理,熟悉掌握 DataX 等 ETL 开发工具。
l 了解容器化技术原理,自动化运维理念,熟悉了解 ansible,docker,k8s 等技术。
l 了解常用的(KNN)等聚类算法,了解 python 文本分析挖掘。
大数据灵活查询分析和挖掘平台
软件环境:suse12+sas 产品+Hadoop+hive +postgresql+openldap+oracle+k8s
l 项目描述:
大数据灵活查询分析和挖掘平台是某银行的集数据分析、挖掘、模型管理、模型调度、AI 算法的中台系统平台,集成 mppdb(postgresql
集群)数据库、oracle 数据库、hadoop 大数据平台等数据源,采用多集群、分布式架构设计,数据量达到 PB 集,涉及对各个数据源查询
分析,业务建模的模型管理 ,模型分析,模型调度。用户权限、安全审计采用 PAM 认证的统一账号,涉及用户达到 2000 多个。同时系
统对外提供了 REST API,python 等开源接口,多方面系统集成,包括图灵平台,spark 等平台。
l 技术要点:
1.负责大数据中台-底层存储设计,系统集成和接口开发;平台性能优化,接口的二次开发。
2.负责数据仓库的元数据开发,包括模型重新设计,数据清理,数据优化;负责对数据访问模板的二次开发,优化代码;
3.负责日常产品版本升级,自动化部署脚本开发,自动化运维。
4.负责 python 的 sdk 代码做二次封装改造,集成 jupyternotebook,编写 dockfile 文件制作镜像。
5.负责 python 开发定时调度框架的编写开发,大数据平台 APM 监控开发。
6.评分模型的开发,维护。
6.负责数据服务,对外提供统一接口