您的位置: 首页 > 产业架构 >> 基础架构 >>> 运营运维
运营运维
    背景介绍
    推荐管理方式

    随着信息技术及其应用的不断发展,作为信息系统的通信中心、运营中心、测试中心和灾备中心,承担着核心业务运营、信息资源服务、关键业务计算、数据存储和备份,确保业务连续性等重要任务。业务集中、数据中心是整个信息化的核心。因此,数据中心运维管理问题越来越得到业内的广泛重视。


    数据中心对运维的要求是:事前预警:在故障出现之前,管理人员应该能在任何时间,任何地点接收到告警信息,并及时处理问题,把故障隐患扼杀在摇篮中;事中恢复:天有不测风云,即使是再完美的方案也可能有预料之外的故障,为保证在更短时间内恢复业务,关键数据不因故障丢失,我们需要有完整备份方案来应对自如;事后存档,以便吸取教训,避免故障二次发生。通过以上方法保证业务7*24小时高效稳定运行。


    从数据中心的日常业务运维方面考虑,则主要有日常检查、应用变更、软硬件升级、突发故障等


    1、日常检查:
    任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查可以及时发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心里的所有运行的设备进行例行检查。检查服务器应用服务是否正常,CPU内存等利用率是否正常。对应用业务进行检查,看业务运行是否正常。还有对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的部分。空调漏水、设备漏电都会对数据中心正常稳定运行产生危害,既要人为定期检查也需结合自动化运维工作进行提前事前预警。


    2、应用变更:
    数据中心承载的业务不会是一成不变的,随着业务的多样化和不断发展,经常要对业务进行调整,包括服务器和网络的设置。对服务器和网络设备操作进行相应的调整。根据应用的需要,及时准确做出变更。


    3、软硬件升级:
    数据中心的设备一般运行周期为3-5年,不断地有设备需要逐渐淘汰进行更换,也有一些设备因为存在软件缺陷需要升级,因此软硬件升级也是维护工作的一部分。软硬件升级时需要做好回退机制,以防升级出现问题时无法回退,业务长时间无法恢复。


    4、突发故障:
    没有任何一个数据中心是不出故障的,对于突发故障,我们将结合整体架构分析故障的触发原因,迅速找到解决的方法,如果在短时间内找不到解决方法,也可以通过切换到备用设备上先恢复业务,再进行分析。数据中心日常维护工作实际上非常重要,关乎着整个数据中心业务的正常运行。通过多种组合方式保障数据中心根据运行情况,在事后及时调整架构也方便进行下一个阶段的规划。