Macrogestiones operativas para un DC de alta disponibilidad

El Antes y Después de cada Data Center lo fija la fecha de inauguración, es decir la puesta en producción.

Un gran esfuerzo se realiza desde la fase de diseño, para cumplir los requerimientos de Disponibilidad y Eficiencia Energética definidos por los directivos de la compañía.

Luego de diseñar y construir las instalaciones, fases que en conjunto pueden llevar de uno a dos años, le seguirán otros 20 a 25 años de vida útil al Data Center, en los que será fundamental contar con una administración integral de la infraestructura, con estándares de alta calidad durante la vida completa del Data Center.

Gracias a cientos de experiencias compartidas por todos los participantes en los cursos de DC Professional, y al aprendizaje diario en la operación, puedo describir la administración integral en 17 Macrogestiones Operativas de un Data Center de Alta Disponibilidad:

  1. Desarrollo Humano
  2. Gobernabilidad
  3. Continuidad de Negocio
  4. Seguridad y Salvaguarda
  5. Operación y Mantenimiento
  6. Tecnología y Herramientas
  7. Refacciones y Accesorios
  8. Problemas e Incidentes
  9. Orden y Limpieza
  10. Finanzas y Adquisiciones
  11. Ingeniería e Implementaciones
  12. Capacidad
  13. Conectividad
  14. Eficiencia Energética
  15. Ambiental
  16. Obsolescencia
  17. Innovación y Mejora Continua

Desarrollo Humano

Para lograr la Alta Disponibilidad del Data Center, no basta contar con una infraestructura de millones de dólares, será imprescindible contar con gente altamente especializada, comprometida, y con actitud ganadora, quien opere y mantenga los sistemas electromecánicos, conectividad, seguridad y salvaguarda, entre otros. 

Entre las acciones que contribuyen a reforzar el conocimiento y la actitud del equipo esta:

DC Professional es una excelente plataforma educativa que brinda un conocimiento fresco basado en las mejores prácticas y estándares internacionales. De lo más valioso es la participación multidisciplinaria de los asistentes que lo enriquecen con las experiencias que comparten en los círculos de discusión. 

Los directivos que aprueban el presupuesto para capacitación podrían de manera involuntaria cometer un grave error de negocio al pensar ‘Que pasaría si los capacito y se me van?’ , más bien habría que replantear la pregunta…‘Que pasaría si no los capacito y se quedan’ ? 

Gobernabilidad

El macrogestor de Gobernabilidad del Data Center deberá asegurarse de contar con los procesos de operación y mantenimiento basados en estándares internacionales y mejores prácticas, y homologarlas en todos sus Data Centers.

Por otro lado, es crítico el desarrollar los reglamentos del Data Center, que algunos le llaman ‘Código de Conducta’, en donde se define desde las políticas de solicitud de acceso, hasta las reglas de implementación de cableados eléctricos, de conectividad, racks y servidores.

Junto con el equipo de Procesos, también deberá de gestionar en tiempo y forma las auditorías relacionadas a Disponibilidad (UPTIME, ICREA), Eficiencia Energética (CEEDA, LEED), Seguridad (PCI-DSS, ISO-27001), Ambiental (ISO 14001, ISO-14644), entre otros. Manteniendo un calendario de auditorías y seguimiento a las observaciones que puedan surgir.

El macrogestor deberá actualizarse de las normas obligatorias a cumplir del país de ubicación, así mismo de las mejores prácticas y recomendaciones que realizan las asociaciones del medio, para evaluar la adopción en los proceso internos como parte de la mejora continua. Algunas referencias importantes a informarse de manera continua están la TIA-942, BICSI-002, The Green Grid, ASHRAE, NFPA, entre otros.

En resumen, el Macrogestor de Gobernabilidad evaluará las certificaciones, estándares internacionales y mejores prácticas, y adoptará aquellas que mejor le convengan al negocio.   

Continuidad de Negocio

Según estudios, una interrupción no planificada provoca en promedio pérdidas por $1 MDD.

Las causas de una interrupción parcial o total pueden ser variadas, desde inclemencias climáticas, riesgos por la industria vecina, disponibilidad de servicios primarios (energía, gas, agua, entro otros) hasta errores humanos en la operación. 

Las compañías se deberán preparar con planes de Continuidad de Negocio desde la fase de diseño del Data Center, y además con diseños de esquemas redundantes y distribuidos de la operación de las TI y Comunicaciones.

En la fase de operación del Data Center, el macrogestor deberá desarrollar en conjunto con el área de Procesos,  los Planes de Recuperación de Desastres (DRP) en base a los riesgos detectados y declarados a la Dirección.  Como apoyo en el desarrollo de la gestión se pudiera tomar de base el estándar ISO 22301.

Es preciso mencionar que es crítico desarrollar pruebas periódicas de escritorio y reales, para evaluar la eficiencia de los Planes de Continuidad del Negocio, y aplicar las mejoras que sean necesarias.

Recordemos que en la Continuidad del Negocio, habrá que estar esperando lo mejor, y preparado para lo peor. 

Seguridad y Salvaguarda

El Macrogestor de Seguridad y Salvaguarda deberá asegurarse que la compañía cuente con los siguientes aspectos:

Las instalaciones críticas deben de estar preparadas con suficientes salidas de emergencia y rutas eficientes de evacuación. El sistema de detección y extinción deberá proteger la infraestructura ante conatos de incendio, mas habrá que recordar que salvaguardar la vida humana esta por encima de todo lo demás.

Operación y Mantenimiento

Parte fundamental de la gestión de Operación y Mantenimiento, será el desarrollar los procedimientos de operación normal, mantenimiento y emergencias para cada activo (Transformador, UPS, ATS, Chiller, CRAC, CRAH, PDU, RPP, entre otros).

Es decir, se deberán desarrollar la secuencia de pasos para cada activo según el tipo de intervención. Por ejemplo, en el caso de un mantenimiento mayor de un UPS-A1, el ingeniero deberá buscar en el repositorio el procedimiento específico para dicho activo, y seguirlo durante la actividad.

Mediante un Plan Anual de Mantenimientos, el gestor debe asegurar la realización de las actividades en tiempo y forma, y registrar los resultados.

Un mantenimiento robusto es una excelente inversión, se extra-valorará en tiempo de crisis.

Tecnología y Herramientas

El macrogestor deberá asegurar que el personal cuente con las herramientas básica para operar y mantener el Data Center.  

Entre las herramientas básicas se encuentran: kit de desarmadores, llaves Allen, multímetro, cámara termográfica, termómetro, anemómetro, balómetro, etiquetadora para cableado, tapones y orejeras de protección auditiva, lentes, ventosas para el piso falso, elevador para montar servidores, escaleras de fibra de vidrio, lámparas, cascos, mascarillas con filtros de partículas, gases y vapores, contador de partículas, analizador de calidad de energía, cargador de baterías, analizador de baterías, entre otros.

Por otro lado, evaluará las tecnologías del mercado para la de gestión y monitoreo avanzado, como un BMS y DCIM, que de preferencia se deberán implementar desde el inicio de la operación.

Es imprescindible contar con personal capacitado para aprovechar las herramientas básicas, así como las avanzadas.  Por ejemplo, parece fácil interpretar una imagen de una cámara termográfica, sin embargo primero habrá que saber si esta calibrado, y por otro lado se debe conocer los rangos normales de temperatura del objetivo a evaluar, de lo contrario es muy probable dar un diagnóstico erróneo, y tomar decisiones equivocadas.

El gestor estará en una búsqueda continua de tecnologías y herramientas de punta, mediante charlas de actualización por parte de los proveedores, asistiendo a conferencias, e investigando en páginas de web especializadas como www.datacenterdynamics.es

Refacciones y Accesorios

Ante contingencias por fallo de los equipos, es de gran apoyo el contar con una existencia de refacciones en sitio para lograr una reacción inmediata. El gestor, de acuerdo a un análisis de probabilidad e impacto, desarrollará la lista de refacciones y la cantidad a mantener.

Será importante definir el lugar de ubicación de las refacciones para evitar contratiempos en la búsqueda durante alguna contingencia, donde el tiempo de reacción se convierte en oro.

Problemas e Incidentes

Normalmente cuando ocurre un problema que pueda impactar la disponibilidad del Data Center, lo primero es solucionarlo a la brevedad para evitar una interrupción no planificada, y se deja para después buscar la causa raíz que lo provocó. 

De cada experiencia se puede obtener una riqueza enorme de conocimiento, mediante Métodos de Análisis de Problema, trabajando en equipo con los expertos internos y externos. El resultado en ocasiones podría mostrar más que una causa única de la falla, mas bien podría mostrar una relación de elementos, situaciones, condiciones, que en conjunto disparan un incidente. Todo este conocimiento valioso es recomendable registrarlo en un repositorio, en el  que describa el síntoma de la falla, en análisis del problema, la causa raíz, la acción para mitigarlo o reducirlo.  

Es muy importante informar oportunamente las medidas correctivas al equipo completo, para replicar las acciones de mejora que permitan reducir los riesgos por las mismas causas.

Para cada escenario probable de falla, será de gran apoyo prepararse con ‘kit de primeros auxilios’, es decir  las herramientas, accesorios, y refacciones que nos ayuden a mantener los ‘signos vitales del paciente’, es decir mantener la disponibilidad del Data Center, mientras llega más apoyo especializado.

“La formulación de un problema, es más importante que su solución”  -Albert Einstein

Orden y Limpieza

En las cientos de visitas guiadas a los Data Center en las que he colaborado, me he dado cuenta que los prospectos en lo primero que ponen atención es en el orden y limpieza. En ocasiones les he escuchado decir, ‘si lo que puedo ver esta en orden, seguramente lo demás también’.  

Mas no sólo es un tema de estética, puedo confirmar que en los detalles esta la disponibilidad.

La Gestión de Orden y Limpieza, define los procedimientos basados en metodologías como las 5’S para depurar, clasificar, etiquetar y ubicar cada elemento dentro de las distintas áreas, tales como zona de desembalaje, cuartos eléctricos, azoteas, jaulas perimetrales, dentro de los racks, bajo piso falso.  

Recordemos que todo contribuye a mantener la disponibilidad del Data Center, por lo tanto recordemos considerar mantener “cada cosa en su sitio, y un sitio para cada cosa”.

Por otro lado, se deberá programar mínimo una descontaminación profunda anual de la sala utilizando filtros HEPA, y posteriormente una evaluación de calidad del aire, para asegurar el cumplimiento del estándar ISO 14644 Clase 8.

Finanzas y Adquisiciones

Parte de las funciones del gestor de finanzas del Data Center se encuentra:

El gestor de finanzas deberá hacer más con menos, sin impactar la disponibilidad. Y cuidar los recursos económicos como si fuera el dueño de la compañía.

Ingeniería e Implementaciones

En la gestión de ingeniería e implementaciones, se desarrollarán los procesos, políticas y formatos para asegurar que la calidad y homologación de las implementaciones la infraestructura de TI, basados en las mejores prácticas, normas y estándares internacionales, como la TIA-942, BICSI-002, ASHRAE, NFPA, entre otros.

Por ejemplo, los procedimientos deberán describir cómo implementar un servidor dentro de un rack, la ingeniería eléctrica, revisión de capacidad de los rPDU, los cálculos de gestión de flujo de aire y temperatura, la revisión de la redundacia de fuentes de poder, el orden y rutas del cableado estructurado, el acomodo y fijación de los racks, el montaje de los servidores respetando los pasillos fríos y calientes, la etiquetación, entre otros aspectos.

Al final de cada implementación, se deberá validar la calidad y cumplimiento de las políticas establecidas mediante un check-list, y firmado por el usuario y el ingeniero en sitio responsable en turno.

En un Data Center de Alta Disponibilidad no se debería permitir instalaciones temporales, pues se convierten en permanentes. Como diría mi padre ‘Haz las cosas de manera impecable a la primera, si no mejor no hagas nada’.

Capacidad

El gestor de capacidad desarrollará una tabla que contenga la lista de activos, su capacidad y utilización, con sus umbrales máximos de operación, tales como transformadores, UPS, PDU, RPP, rPDU, espacio de piso blanco, espacio dentro de un rack, entre otros.

Herramientas de monitoreo en tiempo real de capacidad vs utilización serán de gran apoyo en la toma oportuna de decisiones.  Módulos de reportes, tendencias y alarmas también serán de mucha utilidad.

Por ejemplo, en todo momento se deberá monitorear, detectar y reportar algún riesgo por sobrepasar los umbrales de carga definidos para los rPDU (barra multicontactos dentro del rack), las cuales no deberían operar por encima del 40% en la operación normal (para el caso de interruptores 80%-rated), ya que en caso de fallo de un bus, la carga se sumaría al bus activo, existiendo el riesgo de un apagado total del rack por una inadecuada administración de la capacidad.

Conectividad

El gestor de conectividad deberá desarrollar los procesos para realizar las implementaciones de  comunicación a nivel físico (Capa 1), definiendo desde los materiales a utilizar, categorías, rutas, acometidas, hasta las zonas de distribución (MDA, HDA, ZDA, EDA) para una administración ordenada y confiable. 

Será de gran utilidad el contar con una herramienta especializada como un DCIM que permita mostrar diagramas de trazabilidad, desde la acometida, rutas de escalerilla, equipos activos, paneles de parcheo, hasta la conexión final al servidor.

Eficiencia Energética

Principalmente las funciones del gestor de eficiencia energética son:

Ambiental

El gestor ambiental deberá desarrollar las políticas y procedimientos con un enfoque de responsabilidad social del cuidado del medio ambiente, y a la vez de cumplimiento de las normas regulatorias locales, basados en estándares internacionales como la ISO 14001.

Obsolescencia

Así como servidores de TI tienen una vida útil de 3 a 5 años, también los sistemas eléctricos, de enfriamiento, de conectividad, y seguridad tienen una vida definida en sus especificaciones, por lo que el gestor de obsolescencia, deberá generar y mantener actualizada una tabla de antigüedad de equipos, vida útil según fabricante, y la fecha de renovación.

El gestor de obsolescencia programará con tiempo los proyectos de renovación, permitiendo realizar con tiempo la solicitud del presupuesto, el desarrollo de la logística, ingeniería y pruebas para los nuevos equipos.

Innovación y Mejora Continua

Cada gestión operativa del Data Center es mejorable cada día. Por lo que habrá que definir los mecanismos para evaluar su eficiencia.

Por otro lado, habrá que desarrollar una cultura de innovación en los colaboradores del Data Center, mediante programas que permita analizar nuevas ideas, y evaluar su implementación de acuerdo al costo-beneficio, y retorno de inversión.

Finalmente, es importante mencionar que el área de Infraestructura como responsable del Gobierno y Disponibilidad del Data Center, es quien debe de asegurarse que las gestiones comentadas sucedan, independientemente si alguna macro-gestión es dirigida por otra área de la compañía.

Será imprescindible trabajar en equipo con todas las demás áreas como Operación TI, Capital Humano, Seguridad, Procesos, Proyectos, Ventas, Compras, Almacén, entre otros.

Los servicios de los consumidores finales requieren una disponibilidad 365x7x24, por lo que invito a los lectores a desarrollar e implementar las 17 Macrogestiones de la Operación para robustecer la disponibilidad del Data Center. 

Aprenda más sobre La Gestión Operativa en un Data Center con la Capacitación de DCPro

DCProfessional Development como líder de mercado en soluciones de formación para la industria Data Center, ofrece la oportunidad de entender la industria del data center, consiguiendo una cualificación internacional, proporciona a los profesionales un conocimiento imprescindible con el fin de conseguir la eficiencia operativa y la optimización de los recursos para la reducción de costes, y la disminución de las caídas no programadas de los sistemas. Más de 8.000 profesionales se han formado con nosotros a nivel mundial. Nuestros trainings permiten a los profesionales sacar provecho y aprender de las tecnologías que influyen en las operaciones de data centers en todo el mundo, de la mano de los expertos más prestigiosos y con más experiencia de la industria con una gran visión de futuro.

Salir de la versión móvil