降本增效的大环境下,数据中心应该如何合理的配置运维人员

发布时间:2025-03-28   

一、数据中心人员不足会扩大事故影响


据报道,2023年8月,微软旗下 Azure 澳大利亚数据中心园区由于电力供应能力下降引发冷却设备断电,现场值班人员过少难以应对,最终导致部分客户业务中断。事后,微软承认由于数据中心园区的规模,夜间团队配备的人手不足以及时重启水冷机组,为此微软临时将夜间值班工程师由3名增加到7名。
事故的原因通常会包括产生原因和扩大原因,人员不足并不是本次事故的引发原因,而是导致应急处置不及时从而引发事故扩大的主要原因。需要说明的是,完善的人员配置并不一定能降低事故的发生率但是一定可以有效地减少事故处理时间降低事故产生的影响
二、成本压力是人员减配的根本原因
随着数据中心产业市场增速相对放缓和价格战的内卷,随着规模化的建设转向规模化的运营,随着主管部门政策上越来越严格的考核指标,以及大模型等业务类型转换对传统数据中心的冲击,数据中心在运营阶段面临巨大的成本压力,甚至很多数据中心投产初期利润指标都为负数。
数据中心高质量发展一定离不开开源节流和降本增效,从整体运营成本上来看,人工成本是除折旧分摊、能源费、维保等必要成本之外的最大成本,也是可降成本的重要因素。当未发生事故时,管理者通常会问我们的运维人员到底在做什么当发生事故时,管理者通常还会问我们的运维人员到底在做什么一个数据中心应该如何合理的配置运维人数是个很好的话题。
三、数据中心如何合理配置人员
(一)数据中心运维人员配置总原则
数据中心到底需要配置多少运维人员,业内并没有统一标准,影响因素也非常多,笔者总结以下配置总原则:符合标准规范匹配最小应急实现最大复用兼顾相关因素


降本增效的大环境下,数据中心应该如何合理的配置运维人员(图1)

数据中心运维人员配置总原则

(二)数据中心运维人员配置模型:


1.符合标准规范
1.1 安全标准
现阶段,可以参考的人员安全标准相关规范总结如下:


降本增效的大环境下,数据中心应该如何合理的配置运维人员(图2)

与运维人数相关的国标、行标

1.2 运维规范


人员的设定要满足日常巡检、维护作业、隐患排查、问题整改、应急抢险、故障处理、工程随工、维修改造等方面常规工作的总工时,并按现场管理、标准规范确定各专业、班组及人数。


降本增效的大环境下,数据中心应该如何合理的配置运维人员(图3)

与运维人数相关的团体标准


同时,关键岗位应采取AB角制度,平时A角负责,B角辅助,可随时替补,以保证不会因为A角离职、出差、休假而造成工作间断。
2.匹配最小应急
很多案例都表现出现有人员配置可以满足日常工作,但是一旦需要应急处置时通常出现人手不足的问题。数据中心在规划人员配置时,一定要按最大应急事件发生时,所需要的最小人员数量进行匹配,确保可以满足所有应急场景。


降本增效的大环境下,数据中心应该如何合理的配置运维人员(图4)

据中心常规运维组织架构


3.实现最大复用
复用是减少人员的常用措施,复用也包括多种场景。比如在园区内不同数据中心楼之间复用,在同一数据中心不同专业之间复用等。最大化的人员复用确实可以有效减少人员数量,但是对人员跨专业的技术能力多事件的并行处理能力都有很高的要求,否则无法保障运维质量。
4.兼顾运营因素
除了以上三个主要原则,不同数据中心也要参考自身不同的特点,兼顾以下几个方面:


降本增效的大环境下,数据中心应该如何合理的配置运维人员(图5)

兼顾考虑的相关因素    


通过以上人员配置模型,再结合实际运营情况进行优化,基本可以合理的配置运维人员。传统数据中心在实际运营中,独栋数据中心通常按照80-100架/人左右进行配置,多栋数据中心园区通过复用可以达到120架/人以上
四、运营管理者需要知道的几件事情
数据中心运营管理者最重要的工作,就是如何在满足自身运营标准、结合自身运营特点的情况下,在成本和安全之间找到平衡。因此,需要更深入地了解以下几件事情。
1.安全就是最大的降本
在存在安全隐患的情况下降低成本,本身就是一种赌博,赌的是小概率事故不会大概率发生赌的是事故不是现在发生,而是以后发生实际上,由于人员不足应急处置不力,导致事故扩大,从而引发的客户赔偿要远大于人数提升带来的成本增加。同时,这种事故也会降低企业的口碑,影响后期持续收入。
2.巡检机器人还不能有效减少人员
现阶段,数据中心巡检工作基本是以运维人员的现场巡检与平台运行数据分析相结合的方式开展。通过人的视觉听觉触觉嗅觉味觉对现场环境信息进行采集,结合平台各系统的运行数据,再根据经验进行综合判断,确定系统是否处于正常运行状态。并对应急事件进行及时处置


降本增效的大环境下,数据中心应该如何合理的配置运维人员(图6)

人在巡检中的主要作用


而巡检机器人虽然可以通过视觉识别、声音识别、传感器识别、热成像识别等技术,实现对运行数据和环境数据的采集。但是,这部分数据实际上都可以通过DCIM、动环、BA等系统监测和采集到,机器人更多是对数据的复核和确认,也无法开展及时的处置,只能说是锦上添花,还无法真正替代人员,但其“责任心强”、外界影响因素少、可持续工作等特点,使其成为人工巡检的很好补充。
3.智能化应用还不能有效减少人员
现阶段,数据中心智能化应用很多,最主要集中在AI+BA等领域,更多是节能降耗方面,通过实时调整实现精细化管理。但是,一方面智能化应用只是减少了小部分工作量,并不能真正释放人工。另一方面传感器越多,后期可能的故障点也就越多,越需要人为干预。
4、人员的质量大于人员的数量
数据中心绝大多数故障,背后都有人的因素,调查显示超过一半故障都是人为误操作引起的。数据中心永远缺人,但缺的是高质量的人才,缺的是能应急的人员。在配置人员时,要本着宁缺毋滥的原则,尽量招聘责任心强、能力强的人员,要敢于给高薪,尽可能降低误操作引发的事故。
数据中心运营阶段到底应该如何合理的配置运维人员,既能确保安全,又能尽可能的降低成本,是一个需要结合实践长期思考的问题。希望各位从业者能够给出自己的思考、给出自己的实践,共同努力,一起促进数据中心行业向着高质量方向稳定前行。



免责声明:寰云数据遵守行业规则,本站所转载的稿件都标注作者和来源。 转载稿件或作者投稿可能会经编辑修改或者补充. 如有异议可投诉至: hydatapb@yundatas.com