项目描述:
在没有使用自动监控的情况下,需要运维人员来监控各个服务器的运行状态,无法完全保证服务7*24小时不间断运行,后决定使用zabbix,实现自动监控主机系统和各个服务的运行状态,并实现自动报警及时通知相关运维人员第一时间进行处理。
项目职责:
1、 通过zabbix-server、zabbix-agent、zabbix-server-porxy实现服务器基础监控
2、 使用Ansible批量部署zabbix-agent,并自定义监控项,实现对资产的监控
3、 实现对服务器服务监控(Mysql、Redis、Nginx、公司web网站)
4、 实现对服务器的硬件监控(mem使用率、disk使用率、CPU使用率等)
5、 实现业务监控(API接口信息、端口、进程状态)
6、 使用shell和python编写发送邮件脚本实现自定义监控报警
7、 设置报警媒介,当监控指标达到触发器阈值时触发动作,通过钉钉和邮件发送报警信息,实现报警升级,将不同的报警信息发送给不同小组
8、 通过Grafana实现数据展示