一、数据库运维管理平台研发
1、平台架构设计、组件选型(子平台如数据库运维开发平台、备份平台、资产管理平台、巡检平台、可视化平台等)
2、参与平台代码编写(接口编写、SQL编写、python脚本编写等)
3、平台功能演进(告警自动处理、故障自动切换、故障恢复、事件管理、监控大盘、元数据管理、SQL分析等功能)
4、平台日常运营(平台推广、培训、问题定位和处理)
二、数据库日常运维
1、参与数据库日常巡检和大促保障
2、参与数据库告警处理和自动化告警处理脚本编写
3、参与数据库参数优化和性能调优
4、参与数据库标准制定和自动化方案制定等
三、监控平台研发
1、监控平台研发和维护
技能总览:
数据库:MySQL、TIDB等
大数据: Clickhouse、Elasticsearch等
编程: python、java、shell等
一、数据库实时监控分析系统(30000+生产数据库监控分析)
系统功能:
1、数据库实时监控数据可视化
2、数据库全局实时监控大盘
3、数据库实时告警
4、数据库实时数据分析
系统架构:
1、数据监控埋点采集层(MonAgent)
2、实时数据传输层(proxy-transfer)
3、队列服务层(kafka)
4、实时计算和历史存储层(Storm、Flume、Hive等)
5、告警分发、推送、自动处理层
个人职责:
1、数据采集、数据传输、数据处理、数据存储和整体架构设计
2、海量数据实时分析告警(Storm),Storm集群维护
3、数据库SQL监控存储Elasticsearch,Es集群维护
4、海量历史数据传输和存储(Flume+Hadoop+Hive)
5、告警数据发送到rabbitMQ,自动处理脚本设计,同时支持邮件、短信、内部交流软件集成告警分发等设计
二、数据库自动化运维管理系统(30000+生产数据库管理)
简介:http://baijiahao.baidu.com/s?id=1601404821051179093&wfr=spider&for=pc
系统功能:
1、数据库基础元数据管理(数据库IP、数据量、连接数、表结构等等)
2、数据库参数管理,参数持久化
3、数据库备份管理、数据库健康状态自动检测、数据库自动恢复
4、数据库高可用管理(数据库启停、数据库高可用切换)
5、数据库主机和数据库的各项指标监控和展示
6、数据库服务器文件系统管理、一键扩缩容等功能
7、数据库SQL探查器、数据库执行计划查看和优化建议
8、数据库全量SQL跟踪和优化建议
9、数据库数据导出、发布
10、数据库多版本一键升级等
11、数据库自动告警处理等等
系统架构:
1、平台服务层
2、任务队列层
个人职责:
1、元数据采集 开发和管理
2、数据库自动化工具开发
3、数据库升级、备份、故障自愈开发
三、生产30000+数据库日常运维实践