keepalived群集,zabbix监控,ansible运维自动化,nginx动静分离,LNMP架构部署,redis数据库群集,mysql部署,mysql备份,LAMP架构部署,zabbix自动化,kafka等
搭建 Prometheus 监控,并且使用钉钉报警 2021.05-2021.05
项目描述:
公司引入 docker 虚拟化技术后需要对容器进行监控,老大让我们讨论,有两种方法Prometheus 与Zabbix。相比较起来 Prometheus 部署灵活度高,数据也有更多的聚合可能。故老大决定使用 Prometheus 来做监控器另外再添加一个钉钉报警。
我主要负责:使用 docker 环境,用 prom/node-exporter 来监控物理机硬件,用 google/cadvisor 来采集容器数据,用 prom/prometheus 在其中一台主机上安装来当做Prometheus 服务端,服务运行成功以后,在 prometheus.yml 文件里面 targets 中添加所要监控的主机 ip 和端口。用granfana/granfana 来显示图形化界面。Prometheus 搭建完成以后,设置钉钉报警。用prom/alertmanager 来实现报警,在 alertmanager.yml 配置文件中添加报警所用的钉钉 webhook 等相关信息。最后在prometheus.yml 中添加 rules 钉钉报警规则。部署完成以后,停掉一个服务,验证看有没有报警。
配置/上架服务器、对服务器进行开荒、优化服务 、安全策 略:所有密码每三个月改一次。账户/组安全:删除无用用户/组、锁定相 关配置文件 chattr +i。 创建系统的三员账户:程序运行账户/数据库管 理账户/普通用户。口令策略:密码复杂性、密码长度最小10个、账户口 令
a. memory.limit_bytes:强制限制最大内存使用量,单位有k、m、g三种,填-1则代表无限制。 b. memory.soft_limit_bytes:软限制,只有比强制限制设置的值小时才有意义。填写格式同上。当整体内存紧张的情况下,task获取的内存