项目描述: 本项目是在市场调研的大背景下的跨层故障诊断技术预研项目,通过数据采集框架采集各层
数据,数据包括 HPC 作业正常运行数据及不同故障注入下的数据,交给 Python 算法故障识别和定界,
将算法结果提交至 centerAl 进行综合诊断和分析,提升不同 hpc 作业场景下性能和故障诊断分析能力,
运维人员可以结合专家意见和 AI 输出结果从而有效并快速定位和发现系统故障点,从而保证系统的平
稳运行。
个人职责:主要负责数据采集微服务开发、前后端服务打通并联调测试
技术点:
1、前端使用 AngularJs 提升了开发效率,也确保了项目的可扩展性和可维护性
2、后端使用 Golang(提升性能以及并发响应率)+Python(算法开发,数据处理)
3、Golang 中大量使用协程以及 channel 实现逻辑解耦和提升并发效率
4、利用 kafka 消息中间件实现生产者消费者模型,提高了前后端数据响应效率
5、使用 cmdb+tsdb 持久化系统中各组件拓扑关系以及海量时间序列数据