1、熟练掌握google cloud、aws等前沿云计算运维平台
2、精通 jenkins、gitlab发布流程规划、CICD实现
3、精通shell编程
4、terraform+packer+jenkins pipeline管理基础设施建设
5、熟练掌握ansible批量管理工具,可独立编写架构各种自动部署role。
6、熟练掌握python 、Django、Flask后端框架
7、熟练掌握docker容器服务和编写dockerfile容器构建
8、熟练kubernetes容器编排工具和helm服务工具
9、熟练airflow容器化编排数据处理任务
1、公司内部数据计算Kubeflow平台,主要做ML模型训练和运行jupyter notebook。项目利用terraform 管理基础设施建设,实现gitops原理,服务构建在gcp云上,利用弹性扩容技术充分发挥服务的伸缩性
实现流程:
1.1 使用terraform+packer作为实现基础Linux应用镜像的构建
1.2 编写terraform+ansible实现服务器应用的部署、启动、定时备份和还原
1.3 使用bigquery+R fluent服务实现日志采集分析,并用terraform构建alerting实现邮件告警通知
1.4 全过程使用jenkins pipeline+gitlab webhook实现CICD自动构建
1.5 使用terraform构建GPU服务器,并自动安装对应版本的cuda+cudnn
2、公司内部IKP平台采用docker+kubernetes作为测试、生产环境架构,主要是实现pyspark、tensorflow模型和airflow容器化,实现模型应用的高可用和自愈功能
实现流程:
2.1、 编写Dockerfile构建pyspark、jupyterhub、pytorch应用镜像(基础镜像->公共库镜像->应用镜像),并定时清理过期镜像
2.2、 使用二进制方式部署kubernetes集群
2.3、 部署和维护Harbor私有容器仓库
2.4、 编写kubernetes的efk、traefik、prometheus、dashboard、storageclass等yaml实现功能
2.5、 实现jenkins kubernetes项目CICD流程
2.6、 kubernetes测试、生产环境应用部署、测试、上线
公司内部数据计算Kubeflow平台,主要做ML模型训练和运行jupyter notebook。项目利用terraform 管理基础设施建设,实现gitops原理,服务构建在gcp云上,利用弹性扩容技术充分发挥服务的伸缩性 实现流程: 1.使用terraform+packer
公司内部数据计算Kubeflow平台,主要做ML模型训练和运行jupyter notebook。项目利用terraform 管理基础设施建设,实现gitops原理,服务构建在gcp云上,利用弹性扩容技术充分发挥服务的伸缩性。第二版公司采用docker+kubernetes作为测试