新睿云

> 知识库 > 谷歌亚马逊曾因宕机一分钟就损失50万美元,中小型企业又该如何防治服务器宕机呢?(下)

谷歌亚马逊曾因宕机一分钟就损失50万美元,中小型企业又该如何防治服务器宕机呢?(下)

作者/来源:新睿云小编 发布时间:2019-08-26

谷歌亚马逊曾因宕机一分钟就损失50万美元,中小型企业又该如何防治服务器宕机呢?(上)

失败的服务器相当常见;但鉴于有这么多不同类型的服务器,没有一种解决方案适合所有服务器崩溃。因此,为每种类型的服务器崩溃提供解决方案的一点免责声明不属于本文的范围。

但是,本教程将提供的有用的初步解决方案适用于所有服务器崩溃。通常,您需要做的就是修复故障服务器。因此,如果您的服务器崩溃,建议您首先尝试这些常见的修复程序。

在每次服务器崩溃时(就像任何其他问题一样),您需要先确定原因,然后找到相应的解决方案。虽然无法完全避免服务器崩溃,但本文还提供了一些降低其可能性的技巧。

服务器关闭:如何解决它

第1步:确定根本原因

查看症状

症状可以提供服务器确切错误的重要线索。虽然这些诊断可能并不总是适用于每种情况。下表提供了一些常见症状及其可能的原因。

症状原因注意服务器无法启动服务器硬件出现问题。最有可能的是,服务器电源出现故障。在得出电源故障的结论之前,请做一些基本的验证,例如:检查系统是否已插入并从插座接收电源;电涌保护;或UPS。服务器启动但屏幕显示蓝屏死机(BSOD)这是硬件故障或设备故障的情况。如果最近安装了新驱动程序,则崩溃可能与该特定驱动程序有关。服务器启动并且操作系统(OS)加载但某些关键服务无法启动原因因许多因素而异。

解读蓝屏

解读蓝屏似乎是一项艰巨而艰巨的任务,但实际上,它是按照特定的结构组织起来的,可以为服务器的错误提供重要的线索。了解蓝屏中的结构和内容非常重要(下面提供了蓝屏的简要说明)。

通常,当您尝试以安全模式启动机器并且无法启动时,会出现蓝屏。蓝屏有四个部分,按相同顺序组织:

实际错误消息:根据错误类型,屏幕上可能会显示许多错误消息。例如,下图显示了错误消息BAD_POOL_HEADER。

image.png

其他错误消息示例如下:

KMODE_EXCEPTION_NOT_HANDLED表示配置错误的设备驱动程序。

REGISTRY_ERROR表示注册表中存在严重问题。

INACCESSIBLE_BOOT_DEVICE表示操作系统无法从硬盘读取。

UNEXPECTED_KERNEL_MODE_TRAP表示内存有问题。

BAD_POOL_HEADER难以破译,但这表明该问题与最近系统的变化有关。

NTFS_FILE_SYSTEM表示硬盘已损坏。

KERNEL_DATA_INPAGE_ERROR表示操作系统无法从页面文件中读取内核数据页面。

NMI_HARDWARE_FAILURE表示硬件抽象层无法识别错误原因。

OS模块已加载到内存中:下图显示已加载的模块。这意味着错误的原因与这些模块无关。

image.png

由于崩溃或错误而无法加载的OS模块:下图显示了无法加载的模块。可能是这些模块中的一个是导致崩溃的原因。

image.png

内核调试器的状态:此部分基本上指示调试器的当前状态。此调试器连接两台具有相同操作系统版本的计算机,然后将故障转储从蓝屏系统发送到功能系统。

以安全模式启动机器

安全模式可以了解哪些驱动程序或服务可能导致问题。安全模式以最少的驱动程序和服务开始。因此,安全模式不会加载可能导致问题的那些服务和驱动程序。

在事件查看器日志和设备管理器中查找问题

如果事件查看器日志没有提供任何线索,则转到设备管理器并禁用操作系统启动不需要的设备。之后,启动服务器。如果服务器引导,则您已禁用的设备肯定是问题的原因。一次启用一个设备然后重新启动计算机。如果在启用设备后机器重新启动,则该设备不是问题的原因。启用设备后机器未启动时,您知道已识别出导致问题的设备。

第2步:解决问题

上面的部分可能已经为您提供了有关如何对服务器进行故障排除的一些想法。它可能也给你的印象是原因识别和解决方案几乎可以立即按顺序发生。本节介绍其他一些问题的疑难解答提示。

关键服务失败

在第一步中已经提到了这个问题并且修复它有点复杂,因为没有直接的原因。您需要分别分析每个组件。例如,在Microsoft Exchange中,如果较低级别的服务(如系统助理)失败,则可以断定Exchange已损坏或无法与Active Directory通信。在这种情况下,首先,验证没有任何阻碍与LDAP目录的通信,然后尝试重新安装Exchange Server或最新的Service Pack。

另一个问题可能是数据库无法挂载。在这种情况下,数据库可能已损坏或存在一些不一致之处;您可能需要完全重新安装数据库。

防止服务器崩溃的提示

预防性步骤,值得记住,降低,但不消除服务器崩溃的可能性。尽管如此,预防措施值得一试。下面给出了防止服务器崩溃的步骤。

确保服务器机房整洁干净。

确保冷空气来自前部,热空气从后部排出。这尤其适用于多个服务器的情况。

保持服务器机房的门关闭,以防止灰尘进入,因为这可能导致大量过热。

确保房间内的冷空气到达所有设备。保持服务器冷却至关重要。

安装专门为服务器机房中的服务器定制的空调。

机架暴露可以将冷却内置于机架底部。

确保室温不超过77度。

在空服务器机架上使用空白面板。

考虑虚拟化可以有助于降低发热量。

结论

某些服务器崩溃可由具有软件和硬件基础知识的人员修复;而更复杂的问题需要专家的关注。但是,最佳的负载平衡,预防性护理和良好的操作可确保服务器的更长时间无故障运行。更重要的是,当服务器崩溃时,可以使用初步解决方案进行修复,甚至可能不需要专家。这可以帮助节省大量的成本和时间。

这里更建议您使用云服务器,您可以通过阅读《新睿云主机评测—用数据告诉您“新睿云”为何这么受欢迎》来了解新睿云!

热门标签
免费领云产品
在线客服   
{{item.description}}

—您的烦恼我们已经收到—

我们会将处理结果发送至您的手机

请耐心等待