1、负责产业私有化k8s集群集群部署(openEuler/Kylin V10/Debian/Redhat/CentOS/Ubuntu),K8S集群迁移方案,引
入云原生开源组件和工具提升运维效率,
2、ansible自动化脚本编写完成安装以及初始化配置,性能检测和执行系统初始化,输出性能检测报告
3、故障排查sop手册完善,输出常规CheckList,发生故障后,各个组按照分工,快速检查以下关键指标是否有异常,K8S集群,
中间件,网络,基于故障现象做初步故障分析,确定排查方向,监控是否有异常,带宽、QPS、连接数和网络情况,最近是否有
代码发布,依赖的基础设施是否有调整,容器资源不够是否OMM,集群状态,节点状态、运行时状态是否有异常,strace观察进
程的系统调用情况,确认是否有异常的文件句柄,网络相关的情况可以通过tcpdump来抓包wireshark分析来确认,熟悉JVM 工具
(VisualVM,JConsole,jstack,jstat,MAT)进行问题诊断和优化,内存溢出和内存泄漏辨析,CPU异常飙升,进程死锁,GC调优,
熟悉阿里巴巴开源的Java诊断工具Arthas线上分析工具的使用
4、信创私有化中间件部署规范完善,信创私有化环境告警响应FAQ编写完善,K8S集群Master FAQ,K8S集群Node FAQ,网络问题
FAQ,应用容器FAQ,存储FAQ,数据库FAQ,
业务平台中间件(Redis,RabbitMQ,Minio,Nacos,mysql,Mongodb,xxl-job-admin,Nginx-ingress,hdfs,Kafka) FAQ,中间件存储备
份策略,中间件资源请求,资源限制,私有化中间件服务依赖关系,常见日志排查FAQ,经典步骤与常见问题原因
5、MySQL高可用方案,mysql主从部署指引,MySQL数据库版本升级指引,MySQL数据库运维报告规划,包含mysql巡检采集
指标项,检查规则,修复方法,MySQL审计策略(audit_log),MySQL性能监控方案,MySQL-SQL性能优化
6、负责配置 Prometheus、AlertManager、Grafana,Kube-prometheus-stack 等部署,告警规则优化
7、深入理解Windows Server操作系统和
1、负责产业私有化k8s集群集群部署(openEuler/Kylin V10/Debian/Redhat/CentOS/Ubuntu),K8S集群迁移方案,引
入云原生开源组件和工具提升运维效率,
2、ansible自动化脚本编写完成安装以及初始化配置,性能检测和执行系统初始化,输出性能检测报告
3、故障排查sop手册完善,输出常规CheckList,发生故障后,各个组按照分工,快速检查以下关键指标是否有异常,K8S集群,
中间件,网络,基于故障现象做初步故障分析,确定排查方向,监控是否有异常,带宽、QPS、连接数和网络情况,最近是否有
代码发布,依赖的基础设施是否有调整,容器资源不够是否OMM,集群状态,节点状态、运行时状态是否有异常,strace观察进
程的系统调用情况,确认是否有异常的文件句柄,网络相关的情况可以通过tcpdump来抓包wireshark分析来确认,熟悉JVM 工具
(VisualVM,JConsole,jstack,jstat,MAT)进行问题诊断和优化,内存溢出和内存泄漏辨析,CPU异常飙升,进程死锁,GC调优,
熟悉阿里巴巴开源的Java诊断工具Arthas线上分析工具的使用
4、信创私有化中间件部署规范完善,信创私有化环境告警响应FAQ编写完善,K8S集群Master FAQ,K8S集群Node FAQ,网络问题
FAQ,应用容器FAQ,存储FAQ,数据库FAQ,
业务平台中间件(Redis,RabbitMQ,Minio,Nacos,mysql,Mongodb,xxl-job-admin,Nginx-ingress,hdfs,Kafka) FAQ,中间件存储备
份策略,中间件资源请求,资源限制,私有化中间件服务依赖关系,常见日志排查FAQ,经典步骤与常见问题原因
5、MySQL高可用方案,mysql主从部署指引,MySQL数据库版本升级指引,MySQL数据库运维报告规划,包含mysql巡检采集
指标项,检查规则,修复方法,MySQL审计策略(audit_log),MySQL性能监控方案,MySQL-SQL性能优化
6、负责配置 Prometheus、AlertManager、Grafana,Kube-prometheus-stack 等部署,告警规则优化
7、深入理解Windows Server操作系统和其服务角色,包括Active Directory、DNS、DHCP,部署和管理基于Windows Server解决
方案,解决复杂的Windows Server问题,包括性能调整、安全补丁和故障排除.负责数据库安装、升级、迁移、备份恢复策略、读
写分离、容灾策略,客户高可用集群解决方案的部署安装,Windows故障转移集群,数据库镜像,Alwayon高可用部署,以及服
务器集群故障排查,高可用数据库故障排查等故障处理,负责公司云运维平台监控指标完善优化及性能优化;针对慢SQL,死锁,
阻塞提出优化方案建议,SQLServer性能优化,索性评估,执行计划分析,分区,表结构设计评估,熟练掌握Nginx、Apache、
Tomcat,IIS,掌握IIS调试技术之Debug Diagnostic (调试诊断),dnSpy线上调试程序诊断问题,可使用windbg分析程序dump文件
分析Windows Server内存泄露,CPU高,死锁等问题
8、负责云运维平台故障告警疑难问题处理,并输出邮件报告等,提出解决方案及操作指引,根治问题
9、负责公司客户ERP系统部署,版本升级,提供数据库相关的技术支持服务,配合开发人员完成数据库设计
10、负责客户服务器安全漏洞修复,根据安全公司输出的安全漏洞修复客户服务器安全漏洞
11、负责网络设计、安全规划 、性能调优和维护,SAAS私有化部署交付,系统迁移专项
12、担任运维技术Leader,促进所负责区域团队团队和告警处理成员以及运维成员的技术成长
13、负责服务器系统、数据库、常用软件的初始化、监控、维护、变更迁移、故障处理、网络质量评测
14、负责客户阿里云平台迁移和维护,并获得阿里云云计算专业认证(ACP级)认证,获得CNCF云原生CKA,CKS,CKAD认证