工作总体分为三大模块:
K8s集群搭建以及运维:
有完整的从零到一的Kubernetes高可用集群的部署--->上线>运维>监控的经验、基于client-go二次开发基于钉钉oa审批后自动更新服务的功能、监控:日志:通过部署loki进行所有在运行的服务进行数据采集;服务状态通过prometheus进行每个node节点进行采集;可视化展示通过grafana,将开源的图表基于需求进行二次开发,告警:通过集成altermanager,编写对用规则,超过阈值进行邮件/钉钉告警,整个云平台从运行监控到告警形成完整的链路闭环。
持续集成平台搭建:
基于gitlab+Jenkins进行持续平台的搭建,独立部署这两个组件,并进行jenkins的持续集成前后端脚本的编写,通过其提供的api接口进行自动打包、参数化编译脚本的编写
测试/生产集群搭建:
独立部署并运维测试/生产虚拟机集群、通过ansible提供的playbook进行批量部署脚本的编写、集群的运维、总共管理着84台虚拟机、负责整体集群的平稳运行、过程监控、异常处理,通过prometheus监控整体集群的运行,实时告警。