如何做好大型数据中心的运维

作者：晨光来源：网络发表时间：2016-1-29 点击：4743

什么叫数据中心?维基百科给出的定义是“数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统)，还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置”。在云大行其道的今天，随着数据中心建设规模的不断扩大，新技术的层出不穷，数据中心变得越来越复杂。大型数据中心往往是由很多规模庞大的集群系统组成，其运维工作需要具备方方面面的知识，包括硬件、网络、服务器、存储、安全以及业务上的东西，需要上下打通地去做运维工作。

当一个数据中心的规模非常大，面临的挑战和问题也比较超前，很多在小环境小体系下不是问题的问题在这样的规模下也就凸显出来了，所以要做好大型数据中心的运维工作，对整个数据中心技术体系的系统学习就要花费比较长的时间，只有对这个数据中心整体非常了解，才能有针对性地制定一些运维方案，甚至可以二次开发一些监控运维软件，对整个数据中心进行有效管理与监控，提升整个数据中心的运行效率、减少故障的发生，从而将运维工作推向新的高度。一个大型的数据中心内部往往都包含了很多小系统，运维工作都是围绕着这些具体的应用系统展开的，具体的可以分为基础运维管理、日常业务运维、网络、服务器、存储、安全六大部分，本文就来说一说一般大型的数据中心应该具备的哪些运维方法和能力。

首先从数据中心的基础运维管理方面来说，则主要有硬件配置管理、可维护性优化、监控、报警处理、自动化运维、断网，断电、机房容灾等运维工作。硬件配置管理包含机柜里每台服务器的型号和硬件配置，并清楚是哪些业务系统在使用这些服务器。即便是虚拟化运行环境，也需要知道这些虚机都在哪些物理机组成的资源池中流动。数据中心物理机和虚机数量都很庞大，使用自动化运维是非常有必要的。自动化运维不仅能提升运维的工作效率，还可以减少人为的参与，同时让数据中心自己管理自己，释放人力。并对数据中心可能发生的故障还做好监控与报警处理，以便能够在故障发生的第一时间知晓问题，往往一次大的故障都是从开始的一点小故障逐渐扩展最终引发整个大系统的崩溃的，所以在出现一些小的异常时一定要及时消除，而这些异常就要靠完善的监控和报警系统来检测。

从数据中心的日常业务运维方面考虑，则主要有资源、机器分配、资源使用、网络吞吐、故障恢复、备份应用，集群搭建、流量，压力，迁移扩容，升级、上下级业务关联情况、资源利用率、异常处理、应急预案等等。这些日常运维工作实际上要花费大量的人力和时间，是运维工作的主体，也最烦琐，但却最不能体现业绩的部分。一个数据中心能够长久安全稳定运行，就是靠这些日常的工作积累，只有平时注意这些细微的变化，才能不断优化。压力测试、软件升级、业务部署、异常处理等几乎成为了运维工作的日常必修课，只有将这些工作做好，才能避免出现大的故障，并能够快速部署新的业务，根据资源使用情况及时扩容设备。

从数据中心网络方面考虑，则主要有网络硬件设备、ACL、OSPF、LACP、VIP、流量、负载均衡、二三四七层情况、网络监控、万兆板卡、核心交换等。网络是数据中心的重要组成部分，是一切工作运行的基本保证，没有网络数据中心就无法运转起来，所以保证网络稳定是数据中心运维工作中的重中之重。这里主要关注的就是网络的硬件问题，ACL部署还有流量监控情况。网络可以说是包罗万象，涉及太多的设备和协议技术，所以也需要不断地学习，加深对网络技术的理解，这样才能做好网络运维工作。

扫描二维码

关注昊云订阅号

上条新闻：有效的项目管理（三）

下条新闻：如何做好IT运维管理

服务项目

维保运维服务

信息系统集成服务

机房搬迁服务