1 负责 zabbix 监控系统的搭建维护 (基于 docker)
2 负责 k8s 环境的 prometheus 监控,普通环境的 prometheus 的搭建与监控
3 使用 ELK 配合研发定位问题
4 阿里云线上环境维护,k8s 环境维护
5 书写 shell 自动化脚本 (对数据库主从,redis,nginx,mq 等中间件监控,输出对程序的 JVM 监测指标等)
6 阿里云运维,阿里云新技术探索,阿里云 VPC 网络设计,OSS,阿里云数据迁移,阿里云容器化环境构建。设
计从研发到生产基于 CI/CD 流水线
7 devops 自动化发布
8 ansible 等工具的使用
9 基于 gitlab,jenkins,ansible 实现智慧出行平台(私有云)版本发布。
10 各种服务搭建 (nginx 负载均衡,redis 集群,哨兵,jenkins master/slave)
11 软件调优(各中间件的参数修改调优)
12 协助网络故障排查
13 会python,会运维开发,曾写过监控程序状态,若端口不存在那么应用重启。监控服务器状态等
硬件配置:
1.4 核 16G 作为监控主机
2.架构说明:
1)在监控端部署一台 centos 的 docker 容器作为页面访问入口和 zabbix-server
2)部署一个 mysql 作为数据存储
3)自动化脚本每日凌晨执行清除 mysql 历史数据(保留一个月),与清除服务端产生的 log 日志
监控方式:
orabbix 作为监控中间件监控 oracle 数据库
监控其他应用机器采用主动模式
1。mysql 的 zabbix 库升级,此次从原来搭建的 3 版本升级到 4 版本
2。原来宿主机上部署的 zabbix3,改造成基于 docker 的部署方式
3。变被动模式为主动模式 减小了 server 端的压力
4。对数据库的历史数据控制 每天定时执行删除历史数据任务 (保留近期一个月数据)
5。优化了聚合图形 增加了一些新的监控功能
1.一个线程监听一个应用程序的进程端口。如果发现不存在,那么重启应用,重启成功(只重启一次),如果重启没成功,该线程阻塞。 2.查询出上月指定数据后存成xls文件
查询出上月指定数据后存成xls文件,之后对数据库数据进行删除操作,目前用到库为pymysql,datetime,xlwt,pandas