熟悉常规服务部署,丰富的系统故障分析,热爱devops.
对常用监控zabbix、prometheus监控工具比较熟悉,常用开源软件的优化(nginx/haproxy/keepalived/mysql/mongodb/dns/git/docker/等等)。
熟悉Linux(Redhat,Centos)系统及其安装、日常管理、故障定位、日志分析等。
熟悉LINUX服务器网络、安全和web环境规划、配置及调优工作。
熟悉Linux下 Nginx/DNS/VPN/haproxy/jenkins/gitlab/docker等常用服务的配置、管理。
熟练使用shell、python编写自动化运行脚本,实现自动化维护工具、数据备份、日志数据统计等日常工作。
熟悉容器化、k8s集群及期基础组件。有大型互联网工作经验,对降低成本、稳定性保障有经验。
哈啰出行:
工作职责:
1、大规模海量数据智能监控系统架构设计,性能优化,负责zabbix海量数据监控架构及优化,zabbix自动化运维工具开发,自定义监控开发(jvm\mq\阿里云等);熟悉prometheus多服务、多集群高可用,及thanos架构数据持久化,监控数据grafana平台配置展示;持续优化告警规则,提高告警有效性。
2、k8s 容器集群搭建、容器编排组件维护,深入理解K8S各组件基础原理、容器网络接口,掌握容器jenkins持续集成、交付,日常处理容器集群告警、节点调整、应用故障排查;
3、巡检平台建设,健康检测,容量分析,合规检测,故障预警,巡检治理;推进标准规范化落地,通过python开发自动化工具提效降本,提高业务稳定性保障。
4、日常主机、应用、网络异常问题定位排查,故障分析,故障复盘。
负责哈啰IDC应用迁移至阿里云平台的方案规划,具体实施,文档归档。 前期方案选型,与阿里云负责人沟通具体方案细节,落地方案。 规划业务迁移批次,编写迁移规范、实施文档,协调各团队应用迁移时间表。 打通IDC与云上环境网络,部署云上环境,调整发布参数,灰度部署云上环境。 最
统一k8S 日志规范,日志采集方案测试,综合最后选择使用filebeat。部署ELK,调整filebeat参数,优化索引。剩下的就是后期大容量下扩容ES,调整日志大小,保障日志采集、展示读取速度。
【该评论为5星(满分)好评,评论人选择不公开展示】