¿Cómo calcular el porcentaje de tiempo de actividad de alta disponibilidad?
La disponibilidad se mide por el tiempo que un sistema específico permanece totalmente operativo durante un período determinado, normalmente un año.
Se expresa como un porcentaje. Tenga en cuenta que el tiempo de actividad no tiene que significar necesariamente lo mismo que la disponibilidad. Un sistema puede estar en funcionamiento, pero no estar disponible para los usuarios. Las razones de esto pueden ser problemas de red o de equilibrio de carga.
El tiempo de actividad suele expresarse utilizando la calificación con cinco 9 de disponibilidad.
Si se decide por una solución alojada, esto se definirá en el Acuerdo de Nivel de Servicio (SLA). Una calificación de «un nueve» significa que la disponibilidad garantizada es del 90%. Hoy en día, la mayoría de las organizaciones y empresas exigen tener al menos «tres nueves», es decir, un 99,9% de disponibilidad.
Las empresas tienen diferentes necesidades de disponibilidad. Las que necesitan permanecer operativas las veinticuatro horas del día durante todo el año aspirarán a tener «cinco nueves», el 99,999% de tiempo de actividad. Puede parecer que el 0,1% no supone una gran diferencia. Sin embargo, cuando se convierte en horas y minutos, las cifras son significativas.
Consulte la tabla de nueves para ver el tiempo máximo de inactividad por año que implica cada grado:
Nivel de disponibilidad | Tiempo máximo de inactividad por año | Tiempo de inactividad por día |
Un nueve: 90% | 36.5 días | 2,4 horas |
Dos nueves: 99% | 3,65 días | 14 minutos |
Tres nueves: 99,9% | 8,76 horas | 86 segundos |
Cuatro nueves: 99,99% | 52,6 minutos | 8,6 segundos |
Cinco nueves: 99,999% | 5,25 minutos | 0,86 segundos |
Seis nueves: 99,9999% | 31,5 segundos | 8,6 milisegundos |
Como muestra la tabla, la diferencia entre el 99% y el 99,9% es sustancial.
Nótese que se mide en días por año, no en horas o minutos. Cuanto más se suba en la escala de disponibilidad, el coste del servicio también aumentará.
¿Cómo calcular el tiempo de inactividad? Es esencial medir el tiempo de inactividad de cada componente que pueda afectar al buen funcionamiento de una parte del sistema, o de todo el sistema. El mantenimiento programado del sistema debe formar parte de las mediciones de disponibilidad. Estos tiempos de inactividad planificados también provocan un parón en su negocio, por lo que debe prestar atención a esto también cuando configure su entorno informático.
Como puede ver, el nivel de disponibilidad del 100% no aparece en la tabla.
Simplemente, ningún sistema es totalmente a prueba de fallos. Además, el cambio a los componentes de respaldo tomará algún período, ya sea de milisegundos, minutos u horas.
Cómo lograr la alta disponibilidad
Las empresas que buscan implementar soluciones de alta disponibilidad necesitan entender los múltiples componentes y requisitos necesarios para que un sistema sea calificado como de alta disponibilidad. Para garantizar la continuidad y operatividad del negocio, las aplicaciones y servicios críticos deben funcionar las 24 horas del día. Las mejores prácticas para lograr la alta disponibilidad implican ciertas condiciones que deben cumplirse. He aquí 4 pasos para lograr una fiabilidad y un tiempo de actividad del 99,999%.
Eliminar los puntos únicos de fallo Alta disponibilidad frente a redundancia
El elemento crítico de los sistemas de alta disponibilidad es eliminar los puntos únicos de fallo logrando la redundancia en todos los niveles. No importa si hay un desastre natural, un fallo de hardware o de energía, las infraestructuras de TI deben tener componentes de respaldo para reemplazar el sistema que ha fallado.
Hay diferentes niveles de redundancia de componentes. Los más comunes son:
- El modelo N+1 incluye la cantidad de equipos (denominados «N») necesarios para mantener el sistema en funcionamiento. Funciona con un componente de respaldo independiente para cada uno de los componentes en caso de que se produzca un fallo. Un ejemplo sería utilizar una fuente de alimentación adicional para un servidor de aplicaciones, pero puede ser cualquier otro componente informático. Este modelo suele ser activo/pasivo. Los componentes de reserva están en standby, a la espera de tomar el relevo cuando se produzca un fallo. La redundancia N+1 también puede ser activa/activa. En ese caso, los componentes de reserva están funcionando incluso cuando los componentes primarios funcionan correctamente. Tenga en cuenta que el modelo N+1 no es un sistema totalmente redundante.
- El modelo N+2 es similar al N+1. La diferencia es que el sistema sería capaz de soportar el fallo de dos mismos componentes. Esto debería ser suficiente para mantener a la mayoría de las organizaciones en funcionamiento en los nueves altos.
- El modelo 2N contiene el doble de cada componente individual necesario para hacer funcionar el sistema. La ventaja de este modelo es que no hay que tener en cuenta si ha fallado un solo componente o todo el sistema. Puede trasladar las operaciones por completo a los componentes de reserva.
- El modelo 2N+1 proporciona el mismo nivel de disponibilidad y redundancia que el 2N con la adición de otro componente para mejorar la protección.
La máxima redundancia se consigue mediante la redundancia geográfica.
Este es el único mecanismo contra los desastres naturales y otros eventos de una interrupción completa. En este caso, los servidores se distribuyen en múltiples ubicaciones en diferentes áreas.
Los sitios deben colocarse en ciudades, países o incluso continentes separados. De este modo, son totalmente independientes. Si se produce un fallo catastrófico en una de las sedes, otra podrá retomar el negocio y mantenerlo en funcionamiento.
Este tipo de redundancia suele ser extremadamente costosa. La decisión más inteligente es optar por una solución alojada de uno de los proveedores con centros de datos ubicados en todo el mundo.
Después de los cortes de energía, los fallos de la red representan una de las causas más comunes del tiempo de inactividad de las empresas.
Por esa razón, la red debe diseñarse de manera que permanezca en funcionamiento 24/7/365. Para conseguir un tiempo de actividad del servicio de red del 100%, tiene que haber rutas de red alternativas. Cada una de ellas debe contar con switches y routers redundantes de nivel empresarial.
Respaldo y recuperación de datos
La seguridad de los datos es una de las mayores preocupaciones de toda empresa. Un sistema de alta disponibilidad debe contar con sólidos planes de protección de datos y recuperación de desastres.
Una necesidad absoluta es contar con copias de seguridad adecuadas. Otra cosa crítica es la capacidad de recuperación en caso de una pérdida de datos rápida, corrupción o fallo completo de almacenamiento. Si su empresa requiere RTOs y RPOs bajos y no puede permitirse perder datos, la mejor opción a considerar es utilizar la replicación de datos. Hay muchos planes de copia de seguridad entre los que elegir, dependiendo del tamaño de su empresa, sus requisitos y su presupuesto.
La copia de seguridad y la replicación de datos van de la mano con la alta disponibilidad de TI. Ambos deben planificarse cuidadosamente. La creación de copias de seguridad completas en una infraestructura redundante es vital para garantizar la resistencia de los datos y no debe pasarse por alto.