软件并不完美,但定期维护和监控有助于其尽可能顺利运行。对于服务器硬件来说尤其如此,数据中心遭受的所有中断中 80% 都是由服务器硬件造成的。
这里将介绍五个最常见的服务器问题以及如何预防或解决这些问题。
由于恶劣的天气条件、服务器设施内部或外部的电力基础设施较差或由于高功耗导致的停电而导致的电力波动都是问题。存在电源问题的服务器可能会导致最终用户问题,例如生产力下降,并增加数据中心的工作量,因为工作人员会解决工作负载繁重的设备问题,或者每次电源低于可接受的水平时都会重新启动。
为了防止停机,请在整个设施中部署不间断电源,以处理向备用电源的过渡。您的团队应购买、测试和维护单独的现场发电机,以便在停电期间运行关键系统。确保燃料储存区域的安全,定期测试燃料是否受到自然灾害的污染,并确保其免遭盗窃或破坏。
确保正常运行时间的一种方法是将电源备份流程和程序纳入灾难恢复计划。这样,您就可以在预算、测试、维护和培训计划中考虑所有硬件和程序。
服务器硬件和相关组件需要特定组件才能实现最佳性能,例如充分冷却和除湿以及防止温度过高。服务器机房太热或太冷可能会导致硬件故障,从而导致停机。湿度过高会导致硬件部件腐蚀。它为您的团队创造了一个危险的工作场所,因为硬件可能会短路并导致附近的员工触电。
为了防止环境因素影响您的硬件,您可以聘请托管服务提供商 (MSP) 来处理您的服务器设施。MSP 通常拥有维护良好的设施和员工,可以确保您的服务器得到良好的维护并且不受设施条件的影响。您可以与云或托管公司合作获取任何与云相关的硬件和软件。这些提供商拥有专业的员工、培训和资源,可以为当今的企业提供高质量和高度可用的 IT 服务。
服务器性能可能会随着时间的推移而降低,因为它会随着固件和操作系统更新而过时。旧版硬件的更新可能更具挑战性,因为供应商可能会因为其老化而停止推送更新。
继续使用过时固件的服务器可能会出现性能问题,进而演变成其他问题,例如数据库连接不良或带宽瓶颈。在其他情况下,供应商仅在客户请求时推送固件更新,而不是为所有客户安排更新。
全面的更新流程可以帮助您的员工从整体上防止更新问题。您的团队应该考虑如何保持所有应用程序、固件和操作系统的更新,以及建立一个与外部供应商联系的流程。与供应商保持联系可确保他们收到所有更新,无论是否自动推送。您应该参与所有更新过程的定期审查,并制定可扩展性计划,概述系统和流程如何根据需要扩展或缩小。
位于设施不足的数据中心,例如交通繁忙的街道、车库或正在建设的区域附近的数据中心,可能会对硬件造成压力,因为它们不断受到过度振动。即使地板质量不佳也会对磁盘驱动器造成损坏,因为它们会将员工脚步产生的振动通过机架传递到设备。
在设施内部,您应该注意不良的布线,因为紧密捆绑的布线可能会导致设备故障或性能问题。如果电缆未贴标签,工作人员还可能会无意中断开服务器连接,从而在系统重新路由数据时造成无意的瓶颈或使其他设备过载。
数据中心管理人员应提供扎带或尼龙搭扣带,以更有效地捆绑电缆。您可以制定硬件安装和拆卸程序,以确保所有设备都得到充分处理而不会损坏。您的经理应该参与有关新数据中心位置的讨论,以提供防止未来硬件损坏的任何要求。
人为错误可能会无意中导致中断,例如当具有不受限制的网络访问权限的员工执行导致设备重新启动或故障的操作时,从而无意中影响整个系统。
还应该为其网络实施二级保护,例如恶意流量检测机制和减少服务器之间横向通信的方法。
IT 团队应该为所有系统和员工创建并实施基于角色的访问控制,并删除不再在公司工作的员工的访问权限。在数据中心内部,管理人员可以向服务器机柜添加物理锁,以防止不必要和无意的访问,并保护电缆和电线进入设施的区域。