1、负责devopt工具链建设包括不限于代码管理、构建、持续集成、发布等工具链; 2、负责云平台(k8s、ceph等)建设及维护; 3、推进运维流程标准化、规范化、工具化及WEB化,提升研发迭代效率; 4、负责交付工具的编写、方案制定、实施,保障私有项目高质量交付落地; 5、负责包括硬件、系统、中间件、业务及日志等监控体系搭建; 6、负责线上业务的服务质量及效率成本管控;...
1、负责devopt工具链建设包括不限于代码管理、构建、持续集成、发布等工具链; 2、负责云平台(kuesphere、k8s、ceph等)建设及维护; 3、推进运维流程标准化、规范化、工具化及WEB化,提升研发迭代效率; 4、负责交付工具的编写、方案制定、实施,保障私有项目高质量交付落地; 5、负责包括硬件、系统、中间件、业务及日志等监控体系搭建; 6、负责线上业务的服务质量及效率成本管控;...
在中移信息技术有限公司,基于磐匠IPA平台+python独立开发一款自动运营机器人,主要功能包括但不限于:平台全量接口拨测、业务监控巡检、告警情况巡检、日报周报检测报告等报表自动生成、数据分析。项目使用了tcp通信、多线程技术,降低平台日常运营运维工作耗时50倍。...
原有微服务项目部署在私有云的虚拟机上,为了降低机器和运维成本以及提升效率,将原有项目统一迁移上云,同时进行云原生 改造。将原有项目 Docker化,重新搭建了 CICD ,以适配部署到 Kubernetes 。同时搭建 Kubernetes Dashboard 以便查看部件信息、搭建适配 Kubernetes 的日志收集展示方案、搭建监控告警等。...
1、故障发现与登记: 通过监控系统自动报警、用户报障或其他途径发现故障。 登记故障信息,包括故障发生时间、地点、现象描述、初步影响范围、受影响的服务或系统、报障人联系方式等。 2、故障响应与初步处理: 值班工程师接收到故障信息后立即响应,并尝试初步诊断和处理。 根据故障严重程度,可能需要按照预先设定的故障分级预案进行操作,如P1/P2/P3/P4等级别划分,紧急程度依次降低。 3、故障排查定位: 联系相应领域的运维工程师进一步排查故障,利用日志分析、性能指标监控、系统状态检查等手段定位故障点。 如果故障涉及到多个系统或团队,可能会涉及到跨部门协作和资源调度。...
1. 负责使用 ansible 自动化部署集群 2. 负责优化 etcd 性能,数据盘直接使用本地 ssd,自动压缩历史数据和定期碎片清理,优化心跳间隔和选举超时时间 3. 将原 k8s 调度器替换为基于实时负载的调度器 4. 使用 Go 开发基于 webhook 的统一认证服务...