1) 熟练掌握容器技术,生产环境的容器化建设和维护:doker、k8s;
2)数量掌握 Ansible/SaltStack/jumpserver 自动化运维管理工具;
3)熟练使用 Python/Shell 自动化处理工作任务;
4)熟练掌握 linux/unix 操作系统维护及故障排查;
5)熟练掌握 Linux/unix 下各种服务的搭建与维护;
6)熟练使用各类集群管理工具,可根据不同场景选择最优的高可用大并发集群方案;
7)熟练掌握各类存储集群的日常维护、优化、故障处理和数据迁移(PB级数据迁移),如:块存储、对象存储、文件存储、NAS存储、云存储;
8)熟练掌握各类主流数据库的日常维护、优化、故障处理和数据备份及恢复(mysql、mongodb、oracle、redis、postgresql、sqlite等);
9)熟练掌握各类机房建设,含:机房设备规划、设备上下架、网络架构规划、网络布线、系统调试、机房考察、机房巡检等等
10)熟练使用 zabbix、prometheus、grafana 监控项目程序、服务器状态及项目数据及告警等;
11)熟练使用各云平台产品(亚马逊云、阿里云、腾讯云等),规划、部署、实施、监控、日志分析和故障排除;
1)独立维护 3000+台线上服务器的业务服务搭建、系统服务搭建及日常维护;
2)PB级大存储数据迁移、优化、故障处理;
3)线上业务容器化建设及维护;
4)监控体系建设,含:线上业务数据监控、服务器状态监控、业务程序状态监控及告警(电话告警);
5)规划并实施线下项目无缝迁移至云平台;
6)规划并实施机房体系建设,含:机房设备规划、设备上下架、网络架构规划、网络布线、系统调试、机房环境考察、机房巡检等;
背景:根据前期调研,公司业务数据存放于HPC存储中,因目前该存储使用率接近饱和,性能已无法满足业务需求,需将业务数据及测试数据全量热迁移至新存储。数据迁移期间须保证业务正常运行,保证业务连续性,降低数据迁移对业务系统产生的影响,业务无感切换。 负责内容:负责整个项目的规划、实施
背景:由于公司服务器数千台,需要建设一套成体系的监控系统、告警系统,监控内容包含:服务器状态、业务程序状态、业务数据监控、服务器各配件性能等 负责内容:整个项目的规划、实施、协调、验收等
背景:由于公司服务器数量过多,需要集中式管理,建设一套成体系的堡垒机架构,方便运维管理大批量设备 负责内容:负责项目整体的规划、实施、协调、验收等