● 该项目基于Prometheus、Grafana、Alertmanager实现,由本人独自完成上线
● 个人分工:环境整合部署上线、根据需求编写探针脚本、配置告警规则、编写监控大屏看板等,实现对服务器、网络设备和IT服务的各项指标进行监控及展示,并将告警系统接入企业邮箱、企业微信机器人、腾讯云短信、腾讯云电话等平台。
1. 监控大屏看板对IT部网络资源、各类服务、SSL证书、服务器性能、机房环境等进行全天候监控。自行编写了服务器温控metrics,实现了机房环境远程监控。提高了IT同事在应对各类突发故障时的响应速度及排障效率。
2. 编写了各类探针脚本,如基于ESXi和Storcli的磁盘健康探针脚本、基于snmp的服务器BMC监控脚本;
3. 对机房节点进行批量部署node_exporter,对服务器性能进行更加详细的监控,并定期对CPU、内存等性能指标进行百分位分析,合理分配机房容量,提高了节点利用率。