从数据中心的日常业务运维方面考虑,则主要有日常检查、应用变更、软硬件升级、突发故障等
1、日常检查:
任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查可以及时发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心里的所有运行的设备进行例行检查。检查服务器应用服务是否正常,CPU内存等利用率是否正常。对应用业务进行检查,看业务运行是否正常。还有对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的部分。空调漏水、设备漏电都会对数据中心正常稳定运行产生危害,既要人为定期检查也需结合自动化运维工作进行提前事前预警。
2、应用变更:
数据中心承载的业务不会是一成不变的,随着业务的多样化和不断发展,经常要对业务进行调整,包括服务器和网络的设置。对服务器和网络设备操作进行相应的调整。根据应用的需要,及时准确做出变更。
3、软硬件升级:
数据中心的设备一般运行周期为3-5年,不断地有设备需要逐渐淘汰进行更换,也有一些设备因为存在软件缺陷需要升级,因此软硬件升级也是维护工作的一部分。软硬件升级时需要做好回退机制,以防升级出现问题时无法回退,业务长时间无法恢复。
4、突发故障:
没有任何一个数据中心是不出故障的,对于突发故障,我们将结合整体架构分析故障的触发原因,迅速找到解决的方法,如果在短时间内找不到解决方法,也可以通过切换到备用设备上先恢复业务,再进行分析。数据中心日常维护工作实际上非常重要,关乎着整个数据中心业务的正常运行。通过多种组合方式保障数据中心根据运行情况,在事后及时调整架构也方便进行下一个阶段的规划。