✓ 多年运维、开发经验,熟悉 go、python 语言,系统设计开发能力扎实;
✓ 对云原生领域K8S 有大规模集群管理经验,对各组件原理有深入剖析;
✓ 熟悉 Ansible、Saltstack、Gitlab CI/CD 等常用自动化运维工具体系;
✓ 对主流监控系统 Prometheus 、时序数据库 TSDB 等有生产实践经验;
基于 NPD 的 K8S 节点故障自愈系统
1. 通过 NPD 插件及 Exporter 将节点 NodeConditon 上报给 APIServer
2. 通过扩展底层插件适配更多的机器(例如 GPU 等)及故障类型
3. 将故障关联至相应的自愈模块进行处理(如实例迁移、节点报修等)
4. 通过扩展检测类型、丰富自愈能力极大提升集群运维效率(日均 10+工单)