控制是整个操作和维护中最重要的部分,甚至是产品的整个生命周期。事先检测到故障并提供故障。随后,提供详细数据以跟踪定位问题。
有许多优秀的开源产品可供业内使用。选择开源监控系统是节省时间和精力的最有效解决方案、。当然,在阅读以下文章时,对监控不太清楚的朋友可以对整个系统有更深入的了解。
监控目标、
每个人对不同行业的监控有不同的理解,例如、、、。但是,我们必须注意这样一个事实,即应该从公司业务的角度考虑监控,而不是使用监控技术。
系统实时不间断监控:实际上,实时连续监控系统(这是监控);
在实时系统当前状态的反馈:、监视特定硬件或系统,我们都需要实时查看当前系统状态,这是正常的,除了、、或失败。
保证服务的可靠性和安全性:我们监控的目的是保证系统、的服务、正常执行。
为了保证连续稳定的经营:如果我们的监测是完美的,即使是失败的,我们可以接收告警未能在第一时间和解决的问题在第一时间,以确保持续的稳定运行业务。
两种监测方法、。
1.了解监控对象:您知道我们要监控的对象吗?例如,CPU如何工作?
2.性能测试:我们想要监控哪些属性?例如,使用CPU、加载、用户模式、内核状态上下文更改、。
3.报警阈值的定义:如何成为故障,报警?例如,CPU负载很高,用户、内核状态的状态要高多少?
4.问题解决过程:我们收到故障报警,我们该如何处理?有没有更有效的处理?
三个监控核心、
发现问题:当系统出现故障报警时,我们会收到故障报警信息。
定位问题:故障邮件一般会写出特定主机故障的内容、,我们必须分析报警的内容。例如,如果服务器无法连接,我们必须考虑网络问题。、或负载太高,因此无法长时间连接,或者开发触发相关的防火墙禁止策略。我们需要分析失败的具体原因。解决问题:当然,在我们了解故障原因后,我们需要通过解决故障的优先级来解决故障。
总结问题:当我们解决主要故障时,我们需要总结原因并防止故障以避免重复。