Prometheus+Thano监控系统

企业服务-云计算 System

1. 负责整体技术架构选型及部署实施 2. 使用 Go 开发 node controller,实现 kubelet endpoints 的自动更 3. 配置 hashmod 解决 prometheus 无法支撑单个大集群以及多副本 prometheus 重复拉取指标的问题 4. 使用 Go 开发 alertmanager webhook ,并基于飞书机器人配置自动重载 5. 编写 alertmannager 和 thanso ruler 告警规则以及 prometheus record 优化查询语句...

Prometheus+Thano监控系统
Prometheus+Thano监控系统

2000+节点k8s集群搭建及维护

企业服务-云计算 System

1. 负责使用 ansible 自动化部署集群 2. 负责优化 etcd 性能,数据盘直接使用本地 ssd,自动压缩历史数据和定期碎片清理,优化心跳间隔和选举超时时间 3. 将原 k8s 调度器替换为基于实时负载的调度器 4. 使用 Go 开发基于 webhook 的统一认证服务...

2000+节点k8s集群搭建及维护
2000+节点k8s集群搭建及维护
------ 加载完毕 ------
联系需求方端客服