负责制定运维体系建设,运维自动化系统研发、优化运维服务工作流程与标准,带领运维团队对系统的技术支持,保障系统的 稳定、可靠运行以及优化升级; 负责应用部署系统、环境配置系统、监控系统的开发、部署、升级与维护,建设高性能的运维平台; 主导容器云的架构设计和核心模块研发;负责构建完整的容器云平台功能,包括镜像仓库、容器集群、应用编排、网络、日志 收集、集群监控、Serverless 等; 负责 k8s 中的自动化控制中心的维护与管理,以及维护管理集群的状态,比如故障检测,自动扩展,滚动更新等; 负责 k8s 的主节点修复,从节点转移,推动应用容器化迁移和改造;并积极探索下一代微服务架构 service mesh; 项目涉及到 Apache tomcat nginx activemq zookeeper MySQL redis kafka docker 等等程序部署参数调优,结合 k8s,维护数据库主从部署,得到很好的解决,实现自动化测试和持续的集成/部署, 负责网络监控和应急反应,维护系统平台的运行,包括系统巡检、故障排除、系统优化、数据备份等业务,保证平台的高质量 高效率运行状态; 负责定期组织针对不同的问题总结进行分析,及时发现并解决重大故障,将损失最小化,设计自动化运维方案,制定管理策略, 并完成专业的事件报告;负责系统数据库的备份与恢复试验工作,负责备份介质的存放及归档管理工作