维护对于确保关键任务数据中心的可靠性至关重要,但是任何在带电设备上进行的工作都可能使数据中心工作人员面临风险。运营商可以将某些硬件维护工作交给内部工作人员,并将容易导致损坏的更复杂的系统和设施的维护工作交给第三方服务提供商,以避免代价高昂的错误操作或意外的停机时间。
专业的数据中心维护人员知道如何使维护的硬件设备正常运行,并关闭不必要的设备而不会发生意外。内部工作人员可能同样十分谨慎,但是开展这些任务或维护组件可能超出他们的常规工作或专业知识范围。
并不是每个数据中心都是相同的,数据中心运营商也不一定总是拥有足够或经验丰富的技术人员。为了确保每次都获得更好的维护,需要编写书面清单以供技术人员遵循和审核任何服务提供商的文档。在采用第三方维护服务之前,还需要仔细检查所有认证要求。
保持数据中心冷却
机房空调是一种容易出故障的机械设备,因此需要定期维护。对于内部工作人员来说,应该例行更换过滤器,维护冷水机组、冷却塔、节能器或干式冷却器。
数据中心的空气调节器(CRAC)和空气处理器(CRAH)被归类为精密空调。数据中心设施人员可以检查皮带运行和制冷剂的液位,而空调制造商的认证服务人员将这些部件作为其数据中心维护例行程序的一部分。
现代设备都具有传感器,可提供读数,供技术人员分析以检测即将发生的故障。很小的轴振动可能是一个关键指标,但未经训练的工作人员可能不会重视。
数据中心的冷却系统如今越来越复杂,有的还包括直接驱动风扇和带有可自动调节容量的变频驱动器的压缩机。另外,计算机房空气调节器(CRAC)和计算机房空气处理器(CRAH部署在数据中心,或者冷却器顶置,或者并排放置。
液体冷却变得越来越普遍,还有的采用了后门热交换器甚至液体直接冷却处理器技术。集成控制系统可以将这些组件整合在一起,并要求技术人员定期监护,这为数据中心维护工作带来了更多的工作量和风险。
电源和电气系统的处理
为了检测设备是否过热,专业人员应该每年对电力系统进行红外扫描。这需要打开带电设备并对其进行操作,因此技术人员必须穿上防护服以防止潜在的弧闪。完成这些工作需要工作人员具有丰富的经验,才能不会造成伤害。
数据中心的电源系统普遍采用UPS电源,而当电源发生故障时,一些电池很可能会失效。维护和更换电池需要经过培训认证的专业人员实施,因为如果电池开放式端子发生短路会对工作人员造成人身伤害。
UPS电池有几种主要的电池类型:阀控式铅酸电池是最常见的类型,但通常只能使用三到五年。锂离子电池是最新的类型,并且使用寿命可能会更长,但是在材料性能和安全方面还存在一些问题,有些数据中心其禁止在建筑物内使用锂离子电池。传统铅酸蓄电池可以使用25年,但需要进行特殊的房间设置并需要定期检查酸液液位。
数据中心工作人员需要对电池采用监控措施。某些UPS电源具有内置仪表,并提供附加硬件选件。
飞轮UPS非常可靠,但在10年的使用时间内需要更换轴承。而其电动发电机组和备用发电机是机械设备,需要常规维护。
即使工作人员不愿意中断市电查看UPS电源能否正常工作,也应在实际负载条件下测试UPS。专业人员会采用模拟负载来模拟数据中心设备,因此可以查看UPS电源是否可以支持实时负载或必须更换。
作为备用电源的柴油发电机中的自动转换开关需要定期维护,但由于可能没有安装旁路开关,因此很少对其进行处理。如果没有旁路开关,就无法在不转移有载负载的情况下测试自动转换开关,因此它可能是电源供应链中最脆弱的一部分。数据中心采用红外扫描进行检测时需要检测这一组件。
维持消防设施
火灾探测和灭火系统在维修时具有一定的风险,因此任何维修应由经认证的专业人员进行。无论是基于水还是基于气体的消防设备,在数据中心维护期间必须禁用,以防止触发警报或导致整个数据中心关闭。
维护人员必须检查基于气体消防系统的液位和压力,必须验证气体系统的控制系统操作,必须对所有类型的检测器进行测试,以确保它们仍然可以正常运行。另外,必须清除早期烟雾探测系统吸气管中的小孔,以清除灰尘和障碍物,这些颗粒有可能激活高度敏感的消防系统。
在控制功能测试之前,必须先断开紧急断电开关(操作这个“红色按钮”可以瞬间使整个数据中心电力中断)。专业人员必须进行关闭和测试,因为他们拥有安全检查每个消防系统的证书和专业知识。
全面测试消防系统的唯一方法是实际操作,这种做法并不现实。在不实际启动消防系统的情况下,测试和维护必须尽可能接近激活状态,而需要专业的知识和技能。
保持设施清洁
如果没有获得适当的冷却,数据中心硬件将会关闭以进行自我保护。通常,其原因只是灰尘和颗粒积聚在小型过滤器和内部散热器上。
无论工作人员对清洁设备、及时关门和设施多么谨慎,细小颗粒物仍然可以通过工作人员融入设施。而只是擦湿地板并不能保持数据中心清洁。
专业的数据中心清洁服务人员知道如何在高架地板上进行清洁而不中断冷却,如何清洁服务器过滤器而不会造成停机,并且采用专用设备来清除数据中心设施所有组件上的颗粒。
作为数据中心维护的一部分,大多数关键数据中心每年都与第三方签订专业清洁合同。即使对于需要多长时间开展一次清理服务没有计划,也应该每年至少对数据中心进行一次清理。