1、负责跟进应用系统的立项评审、部署发布、监控、维护和优化
2、负责应用系统的性能分析与架构优化,提高系统运行效率。协调开发,测试,运维等各个团队
双十一、618业务量会翻很多倍,分析历史数据、机器负载、tps、tp99等参数扩容调用量大的业务,并在大促前协助压测业务找出业务阈值。根据业务逻辑优化业务调用,使用java工具帮助研发分析定位问题,jvm、系统内核优化等来提高业务运行效率
3、通过shell、python开发自动化运维工具来降低手工操作的维护成本
4、负责突发事件管理,问题跟踪与管理,运用主机监控,日志分析,APM等工具进行复杂问题定位
在业务不可用时能够通过分析业务日志、系统日志,使用监控平台、抓包等工具快速定位恢复可用性
5、负责百万tps日志平台、分布式监控服务平台搭建和维护
6、ELK,zk,kafka,spark、cassandra集群搭建和维护,大数据相关组件集群的搭建和维护经验
python自动化发布上线开发,业务性能问题排查,架构优化
ELK,zk,kafka,spark、cassandra集群搭建和维护,大数据相关组件集群的搭建和维护经验