1.熟悉Linux与windows操作系统;
2.熟悉 zabbix、prometheus、skywalking、grafana主流自动化监控工具;
3.熟悉mysql关系型数据库和redis、mongodb、postgres非关系型数据库;
4.熟悉基础的集群架构, 熟悉 lvs、nginx 的LB和 keeplived;
5.熟悉TCP/IP协议,熟悉网络基础知识;
6.熟悉常用 Web组件 nginx、tomcat 的部署、使用和调优,熟悉jvm调优;
7.熟悉分布式日志分析ELK系统调优与集群配置;
8.熟悉docker、k8s容器云;
9.熟悉shell、python,有过小型python爬虫经验;
10.有5年公有云运维经验,主要为阿里云、腾讯云、七牛云,并考取了阿里云的ACE认证;
11.熟练使用 ansible、ansible_tower自动化部署工具;
12.熟悉git版本控制,gitlab、nexus托管平台,jenkins持续集成,nacos、Apollo、xxljob等中间件;
13.熟悉中间件rocketmq、rabbitmq消息队列;
项目一:版本迭代自动化部署
项目目的:在进行版本迭代时为了减少人为误操作与上线流程的自动化
项目方案:
Tengine+Ansible+Jenkins
Nginx自动检查模块+Ansible(钉钉推送通知)+Jenkins
项目描述: 在线上服务器增多的情况下,大批量服务器的版本迭代采用人力更新已经不太适应。因线上环境以稳定为主,所以选择比较稳定第二种打补丁方案,使用nginx的健康检查模块来实现对后端服务状态的检查,结合Ansible_tower+Jenkins实现版本迭代的自动化部署。工作流部署完毕之后,将使用文档移交给测试,
项目准备工作:
搭建好Ansible_tower(开源版本awx)自动化部署工具;
Nginx模拟线上环境测试;
编写线上服务更新Ansible剧本;
项目实施:
为Nginx打补丁(添加Nginx检查模块),Nginx的upstream加上健康检查策略;
检测Nginx是否能够实现根据服务状态自动进行节点屏蔽与开启;
Ansible_tower界面配置(支持单台发布、一键发布、灰度发布、回滚发布、定时发布、弹性伸缩滚动更新等多种发布要求),利用机构和组实现权限划分,并且使用webhook推送自动化部署结果到钉钉;
制定使用文档,以及流程和规范;
将文档移交给测试,之后将由测试进行发布。
项目二:部署Zabbix+Pmm+Prometheus+Grafana监控平台
项目目的:为了更好的监控业务系统健康状态
项目方案:
Zabbix+Pmm+Grafana
Zabbix+Prometheus+Pmm+Grafana
项目描述:Zabbix监控性能优越,监控数据的采取比较灵活多变,使用操作也比较简单。Prometheus对于数据模型这一块比较灵活,查询能力也比较优越。Pmm主要是对于数据库健康状态的监控。将所有的监控数据全部推送到Grafana上进行监控数据展示。第一种方案能满足现状态的需求,考虑到公司之后有微服务和容器化的需求,并且Zabbix监控一台多Java服务不太友好,所以采用第二种方案,Zabbix监控某些需要自定义的监控数值和服务器的资源数据,Prometheus监控后端Java服务的jvm虚拟机健康状态。
项目实施:
安装部署Zabbix、Prometheus、Pmm、Grafana的server端;
在被监控机器上安装Zabbix、Prometheus、Pmm客户端,Zabbix实现自动注册,Prometheus实现jvm监控;
Zabbix、Prometheus监控报警采取钉钉告警;
Zabbix、Prometheus、Pmm数据统一输出到Grafana界面展示;
制定维护文档,以及流程和规范;
项目三:基于 ELK的新型日志分析、存储、展示平台
项目背景:随着公司规模的不断扩大,业务日志数据不断增长,日志量大增。文本搜索缓慢,多维度查询、定位、分析变得越来越困难,无法实时获取或展示业务的具体情况。ELK是一套完整的日志收集、分析及图像展示的解决方案,因此,决定采用 ELK平台配合 Filebeats ,对日志进行集中式的管理。
项目架构:因为公司数据量比较的大,架构上使用es集群加上kafka中间件,来防止数据流过大导致es节点崩溃。
项目实施:
参与整个项目架构的设计,制定具体的实施方案;
负责 Filebeats, kafka, Logstash, Elasticsearch, Kibana这几个开源软件在相应服务器上的具体安装和部署,es集群整体先进性基础调优;
测试 ELK平台的可用性,防止后期出现大量 Bug;
制定维护文档,以及流程和规范;
项目四:Lvs+Nginx负载均衡集群
项目描述:在高并发的情况下,服务的请求响应速度会变慢。为了保证负载层足够稳定的状态下,适应更大的访问吞吐量还要应付可能的访问洪峰。因为LVS是基于内核的调度,所以在调度性能方面强于Nginx,并且经过两次的负载均衡,可以很好解决这个高并发访问慢的问题,并且能够保证七层负载均衡节点的高可用性。LVS负责第一层负载,然后再将访问请求转发到后端的若干台Nginx上。LVS的DR工作模式,只有进的流量经过调度器,并且是通过客户端访问VIP,请求经过调度器调度到后方的真实服务器后,在后后方的真实服务器由VIP发给客户端,因此