熟悉常规服务部署,丰富的系统故障分析,热爱devops.
对常用监控zabbix、prometheus监控工具比较熟悉,常用开源软件的优化(nginx/haproxy/keepalived/mysql/mongodb/dns/git/docker/等等)。
熟悉Linux(Redhat,Centos)系统及其安装、日常管理、故障定位、日志分析等。
熟悉LINUX服务器网络、安全和web环境规划、配置及调优工作。
熟悉Linux下 Nginx/DNS/VPN/haproxy/jenkins/gitlab/docker等常用服务的配置、管理。
熟练使用shell、python编写自动化运行脚本,实现自动化维护工具、数据备份、日志数据统计等日常工作。
熟悉容器化、k8s集群及期基础组件。有大型互联网工作经验,对降低成本、稳定性保障有经验。
1、大规模海量数据智能监控系统架构设计,性能优化,负责zabbix海量数据监控架构及优化,zabbix自动化运维工具开发,自定义监控开发(jvm\mq\阿里云等);熟悉prometheus多服务、多集群高可用,及thanos架构数据持久化,监控数据grafana平台配置展示;持续优化告警规则,提高告警有效性。
2、k8s 容器集群搭建、容器编排组件维护,深入理解K8S各组件基础原理、容器网络接口,掌握容器jenkins持续集成、交付,日常处理容器集群告警、节点调整、应用故障排查;
3、巡检平台建设,健康检测,容量分析,合规检测,故障预警,巡检治理;推进标准规范化落地,通过python开发自动化工具提效降本,提高业务稳定性保障。
4、日常主机、应用、网络异常问题定位排查,故障分析,故障复盘。