如何运维运行中的服务器 - 服务器运维平台

首先，检查本地硬盘。

许多服务器依赖内部硬盘驱动器来承载工作负载和存储、保存用户数据和其他功能。硬盘介质的问题会严重影响负载性能和稳定性，最终导致硬盘故障。

磁盘媒体是不完美的，常见的问题包括坏扇区和碎片。RAID可以在磁盘发生故障时更稳定地保证数据的稳定性和一致性，但较小的服务器，如1U机架式服务器，可能无法提供足够的空间来实现RAID。使用工具，如CHKDSK（检查磁盘）检查硬盘驱动器的完整性，并尝试修复损坏的扇区。Windows
Server 2012中最新版本的CHKDSK可以快速分析和修复文件系统结构的磁盘问题。

磁盘碎片不会消失，只要您使用NFS和文件分配表或FAT，文件系统将使用第一个可用的集群磁盘空间。碎片会减慢服务器磁盘的速度并导致故障。卷组优化工具，如Windows Server 2012可以安排每个文件集群，并确保数据的连续性。

其次，检查事件日志输出。

服务器事件日志包含了丰富的信息，尤其是详细信息。如果不仔细检查系统日志、恶意软件日志和其他日志，服务器维护是不完整的。当然，关键的系统问题应该引起IT管理员和技术人员的注意，但还有无数的非关键问题可能预示着长期或严重的问题。

如果要维护服务器，请检查报告设置并验证警报和警报收件人地址是否正确。例如，如果技术人员离开某个服务器组，则需要更新服务器的报告系统。仔细检查您的联系人列表和联系方式也很重要。仅仅将关键错误报告发送到您的技术人员的公司电子邮件地址是不够的。你需要确保他们在工作时间以外都能联系到。

积极主动地分析日志数据。日志检查发现长期或反复出现的问题时，主动寻找问题的解决方案，避免问题升级。例如，如果服务器日志显示某些内存模块的可恢复报告，则不会触发严重警报。但报告描述了某个模块的问题，IT可以进行更详细的诊断，以识别即将发生的故障。

如果问题的影响很小，没有必要关闭服务器，那么它可以重新联机并继续提供服务，直到需要更换硬件。

第三，定期安装补丁和更新。

服务器软件栈（BIOS、操作系统、虚拟机管理程序、驱动程序、应用程序、支持工具）必须确保所有交互和协作。不幸的是，软件代码很少是完美的或没有错误的，所以这样的软件问题需要经常打补丁或更新，以修复错误，提高安全性，简化可操作性，提高性能等。

并不是所有的软件都可以自动更新。管理员需要确认哪些修补程序或升级包是必需的，然后评估和测试更新的效果。如果更新包修复了服务器上不存在的问题，那么就没有必要冒这个风险。

软件开发人员无法测试每一个软件和硬件的兼容性以及潜在的问题与补丁和更新，这可能会导致更多的问题，这可能发生在一个特定的服务器或软件集。例如，用于监视软件的代理补丁可能会导致关键应用程序出现性能问题，因为新代理需要比预期更高的带宽。

在切换到DevOps之后，更小、更频繁的更新进程会加剧潜在的问题。在部署之前，仍应在实验室环境中测试任何修补程序或更新。始终确保您可以撤消最初的更改并恢复以前的软件配置。

第四，确保服务器能呼吸。

一旦服务器关闭电源，目视检查服务器内部和外部的气流路径。清除任何堆积的灰尘和碎屑，以确保冷却空气畅通无阻。

从外部通风口开始，然后依次检查系统机箱、CPU散热器和风扇组件、内存模块以及所有冷却风扇叶片和风道路径。防静电工作区使用清洁、干燥的压缩空气清除灰尘和杂物。不要清理机架中的服务器。

除尘是一个历史悠久的传统工艺，但这并不意味着它过时了。灰尘是热绝缘体，需要清除。现代替代冷却解决方案和ASHARE建议已提出增加数据中心的工作温度。灰尘和空气流动的其他障碍物会导致服务器使用更多的能源，甚至沉积物的积累也会导致某些组件过早失效。

第五，坚持常规保养。

服务器管理员经常忽略有计划的日常维护。留出时间进行日常维护，而不是等到实际故障发生时才进行维护，这样可以防止问题的发生。

维护频率取决于设备年龄、数据中心环境、要维护的服务器容量以及其他因素。例如，放置在机房的旧设备比放置在有HEPA过滤器和良好冷却设施的数据中心的设备需要更频繁的检查。组织可以根据供应商或第三方的例行检查策略安排日常维护计划。果供应商的合同规定没有4个月或6个月的检验，那么将执行此时间表。

服务器运维服务平台

服务器运维知识库