1、通过供应链向运营商或代理商报障后与之进行技术沟通处理。
2、故障处理跟进、督促、复测检测等工作。
3、劫持故障整理excel便于后期维护、统计、分析等工作。
1、根据故障现象进行故障点定位,分析得出问题故障运营商及区域。
2、故障可分为DNS劫持、HTTP302劫持、IP劫持根据不同的性质形成故障报告交由运营商处理。
3、经过持续优化处理,整体业务劫持率下降,未处理堆积劫持清零。
1、统计分析故障报警敏感度,分析告警优缺性,针对不同类型的故障查看指定监控系统。
2、促进监控系统优化数据。
1、在各个节点的relay机上部署探测任务,通过Ansible把需要的探测ip列表、探测脚本、下发到边缘节点,并自动写入crontab定时任务。
2、当节点之间ping结果丢包3次并达到8%的丢包率时,触发MTR进程,使用MTR报告模式输出traceroute路径。并使用python中的邮件发送脚本给自己发送信息,以便查看。
3、输出结果中包含mtr基本信息,以及省份、节点名称、测试源目ip、mtr( sudo mtr -n -i 0.5 -a 111.12.60.9 39.155.150.135 )便于迅速定位故障定位和向运营商报障。减少登陆设备再进行mtr、fping等操作。
4、与之前发现“故障登陆节点设备fping周边节点mtr丢包ip”做同样的事(抓取双向数据)。相比可直接截图报障给机房。减少10分钟定位报障速度。
央视春晚重保为了保证业务网络稳定性,部署ICMP、NMAP监控,如发现网络问题及时切掉节点,保证业务稳定。