当服务器空闲时,我们会认为停机时间可以很快知道这可以做什么。实际上,很多时候服务器处于非活动状态,并不总是被感知到。服务器停机,ping或ssh是最简单的方法,但真正的工程实践并不那么简单。
您想了解服务器停机时间的哪些方面?您可以通过服务器的空闲时间实时检测到它:
1)发现停机时间。
2)预警。
3)指出停机时间的详细信息,例如硬件故障,内核错误,网络异常等。
4)自动修复生成工单。
我们知道,物理机在网络上精确检测和实时发现可以停机的分析提供第一现场,并在第一时间获得注册。您还可以发送数据尽快停机知识和加工业务或业务,如汽车修理,贸易迁移等,以尽量减少对业务的影响。
更重要的是,发现数据的时间准确的活动可以提供数据的准确注解来预测停机时间,预测的时间晚了不活动提供了一个数据库,并提供该数据的操作部门一般分析,以提高加工效率。
那么,我们如何准确地检测停机时间并减少误报?我们可以执行以下操作,例如:
检测心跳的来源异常
顾名思义,通过心跳的来源,发现了一个初始的异常现象。通常,有三种类型的消息:更新消息,删除消息和插入消息。心跳的逻辑是SA服务器与NC建立长连接。心跳每隔几秒缓存一次,每隔几分钟报告一次。然而,当NC异常,连接被立即长连接后上报并在检测到路由表发生变化。因此,心跳异常是二阶感知。

当心跳发生变化时,将生成更新消息。当心跳异常且心跳恢复正常时,它是心跳的主要来源。
当心跳异常且SA确定无法达到ping并且无法到达ssh时,将生成删除消息。删除该消息以防止延迟太长。
插入消息由刚添加机器的机器启动或在充电后重新加载。该消息对停机时间没什么价值,并与活动时间一起使用。
的检测脉冲源的任务的逻辑是主要用于监测并缓存该消息的运行时间和避免消息冲突的多个在时间窗中,使得信息被覆盖。
异常排斥
排除非物理机并排除虚拟机生成的非暂时在系统中的异常信息。
排除不在一个商业的状态,因为在安装的状态机,甚至在生产,维修,迁移,充值,销毁,重新启动,控制和监督只有机器的正常状态。
排除不起作用的计算机,例如不起作用的计算机。
排除网络干扰在空闲时间的分析中,误报是由网络问题引起的,如果物理机关闭则无法精确确定。这可能是一个网络问题。
排除异常网络设备引起的误报警,例如网络断线演习,小区域网络故障和上行链路网络故障。例如,在检测数据包丢失时,使用某些逻辑来确定网络问题。
服务器本身没有错误的丢包报警。除了过滤网络问题之外,还需要分析数据包丢失数据以过滤掉SA中的错误警报。 SA异常将报告心跳的异常,并且不会被理解为不活动的时间。
分析丢包Icmp和tcp,icmp的采集频率设置为几秒,采集频率tcp固定几秒钟,包括丢失各种不同大小的数据包(16,32,64) ,128,256等),根据分析时间窗口丢失数据包
排除特殊情况下的干扰
有时,个别计算机房中会出现大规模的非自愿心跳异常。同时,网络ping报文异常,但上行网络设备的ping报文正常。通常根据具体情况分析这种类型的误报。如果根据每个机房的监控来监控报告的频率,则消除干扰。
识别更多的误报
此时,大部分干扰已经泄露,但仍有一些隐藏的误报。例如,心跳异常,异常平,它们都满足机器的试验中,这将导致在停机的错误判断的逻辑,作为网卡的爆炸或重试率它很高。这是由商业原因引起的网络异常,但业务并非异常。它需要被排除在外。例如,服务器未被阻止,但I / O延迟和资源分配指示符不正常。对于上述情况,请增加正常运行时间和带外日志分析。
不活动点检测活动时间确定是否已经发生重启。
另外,在分析记录是否连续时确定是否发生重启。
日志重新启动功能的值匹配以确认是否重新启动。
如果您不确定,请使用活动时间窗口技术重新启动。
仍未确定要处理,请输入长队列处理列表。
长尾处理再次
无法识别的斜率,会被添加到长尾列表中,如每分钟心跳异常,异常ping,但串口寄存器已经正常发出,它一般是一种堵塞,死网不场景可以通过。它会在一段时间内被观察到。如果尚未在固定时间窗口内恢复或重新启动,则会临时通知。之后,这类事故将分开进行分类。
话虽如此,效果如何?
我们看一下准确性和覆盖范围:准确性:当前发现的机器具有高精度,可以区分实际停机时间和无停机时间。然而,有认为是不活动和假阳性的数据量小,由于缺乏相关的信息将被进一步优化,和假阳性将逐渐减少。新措施出台后,这一比例将接近于零。
覆盖范围:目前的统计覆盖范围已经能够承受每日停机时间。具有足够的功能后,这些数据将得到进一步改善。
目前,对停机时间的感知是分析停机时间的基础。通过服务器宕机的实时检测,他们将确定停机的原因相对应明确具体的原因和实现最大的服务器的可靠性。
上海IT外包服务网 链接:http://www.linemore.com