Comment calculer le pourcentage de disponibilité de la haute disponibilité ?
La disponibilité est mesurée par le temps pendant lequel un système spécifique reste pleinement opérationnel au cours d’une période particulière, généralement une année.
Elle est exprimée en pourcentage. Notez que le temps de fonctionnement n’a pas nécessairement la même signification que la disponibilité. Un système peut être opérationnel, mais non disponible pour les utilisateurs. Les raisons peuvent être des problèmes de réseau ou d’équilibrage de charge.
Le temps de disponibilité est généralement exprimé en utilisant la notation avec cinq 9 de disponibilité.
Si vous décidez d’opter pour une solution hébergée, cela sera défini dans l’accord de niveau de service (SLA). Une note de « un neuf » signifie que la disponibilité garantie est de 90%. Aujourd’hui, la plupart des organisations et des entreprises exigent d’avoir au moins » trois neuf « , c’est-à-dire 99,9 % de disponibilité.
Les entreprises ont des besoins différents en matière de disponibilité. Celles qui doivent rester opérationnelles 24 heures sur 24 tout au long de l’année viseront le » cinq neuf « , soit 99,999 % de disponibilité. Il peut sembler que 0,1% ne fasse pas une grande différence. Cependant, lorsque vous convertissez ce chiffre en heures et en minutes, les chiffres sont significatifs.
Référez-vous au tableau des neuf pour voir le temps d’arrêt maximal par an que chaque grade implique :
Niveau de disponibilité | Temps d’arrêt maximal par an | Temps d’arrêt par jour |
Un neuf : 90% | 36.5 jours | 2,4 heures |
Deux Neufs : 99% | 3,65 jours | 14 minutes |
Trois Nines : 99,9% | 8,76 heures | 86 secondes |
Quatre neuf : 99,99% | 52,6 minutes | 8,6 secondes |
Cinq Nines : 99,999% | 5,25 minutes | 0,86 secondes |
Six Nines : 99,9999% | 31,5 secondes | 8,6 millisecondes |
Comme le montre le tableau, la différence entre 99% et 99,9% est substantielle.
Notez qu’elle est mesurée en jours par an, et non en heures ou en minutes. Plus on monte sur l’échelle de la disponibilité, plus le coût du service augmente également.
Comment calculer le temps d’arrêt ? Il est essentiel de mesurer le temps d’indisponibilité pour chaque composant susceptible d’affecter le bon fonctionnement d’une partie du système, ou du système entier. La maintenance planifiée du système doit faire partie des mesures de disponibilité. Ces temps d’arrêt planifiés entraînent également un arrêt de votre activité, vous devez donc y prêter attention également lors de la mise en place de votre environnement informatique.
Comme vous pouvez le constater, le niveau de disponibilité de 100 % n’apparaît pas dans le tableau.
En clair, aucun système n’est entièrement à l’abri des pannes. De plus, le passage aux composants de secours prendra un certain temps, que ce soit des millisecondes, des minutes ou des heures.
Comment atteindre la haute disponibilité
Les entreprises qui cherchent à mettre en œuvre des solutions de haute disponibilité doivent comprendre les multiples composants et exigences nécessaires pour qu’un système soit qualifié de haute disponibilité. Pour assurer la continuité et l’opérabilité de l’entreprise, les applications et services critiques doivent fonctionner 24 heures sur 24. Les meilleures pratiques pour atteindre la haute disponibilité impliquent certaines conditions qui doivent être remplies. Voici 4 étapes pour atteindre une fiabilité et une disponibilité de 99,999 %.
Éliminer les points de défaillance uniques Haute disponibilité vs. redondance
L’élément critique des systèmes à haute disponibilité est l’élimination des points de défaillance uniques en réalisant une redondance à tous les niveaux. Peu importe qu’il y ait une catastrophe naturelle, une panne matérielle ou une panne d’électricité, les infrastructures informatiques doivent avoir des composants de secours pour remplacer le système défaillant.
Il existe différents niveaux de redondance des composants. Les plus courants sont :
- Le modèle N+1 comprend la quantité de l’équipement (désigné par ‘N’) nécessaire pour maintenir le système en fonctionnement. Il est opérationnel avec un composant de secours indépendant pour chacun des composants au cas où une défaillance se produirait. Un exemple serait l’utilisation d’une alimentation électrique supplémentaire pour un serveur d’applications, mais il peut s’agir de n’importe quel autre composant informatique. Ce modèle est généralement actif/passif. Les composants de secours sont en veille, attendant de prendre le relais en cas de défaillance. La redondance N+1 peut également être active/active. Dans ce cas, les composants de secours fonctionnent même si les composants primaires fonctionnent correctement. Notez que le modèle N+1 n’est pas un système entièrement redondant.
- Le modèle N+2 est similaire au N+1. La différence est que le système serait capable de résister à la défaillance de deux mêmes composants. Cela devrait suffire à maintenir la plupart des organisations en état de marche dans le haut du panier.
- Le modèle 2N contient le double de chaque composant individuel nécessaire au fonctionnement du système. L’avantage de ce modèle est que vous n’avez pas à prendre en compte la défaillance d’un seul composant ou de l’ensemble du système. Vous pouvez déplacer les opérations entièrement sur les composants de sauvegarde.
- Le modèle 2N+1 fournit le même niveau de disponibilité et de redondance que 2N avec l’ajout d’un autre composant pour une meilleure protection.
La redondance ultime est obtenue par la redondance géographique.
C’est le seul mécanisme contre les catastrophes naturelles et autres événements d’une panne complète. Dans ce cas, les serveurs sont répartis sur plusieurs sites dans différentes zones.
Les sites doivent être placés dans des villes, des pays ou même des continents distincts. De cette façon, ils sont entièrement indépendants. Si une défaillance catastrophique se produit dans un emplacement, un autre serait en mesure de prendre le relais et de faire fonctionner l’entreprise.
Ce type de redondance a tendance à être extrêmement coûteux. La décision la plus sage est d’opter pour une solution hébergée par l’un des fournisseurs dont les centres de données sont situés dans le monde entier.
Après les pannes de courant, les pannes de réseau représentent l’une des causes les plus courantes de temps d’arrêt de l’entreprise.
Pour cette raison, le réseau doit être conçu de telle sorte qu’il reste opérationnel 24/7/365. Pour atteindre un temps de disponibilité du service réseau de 100 %, il doit y avoir des chemins de réseau alternatifs. Chacun d’entre eux doit avoir des commutateurs et des routeurs redondants de niveau entreprise.
Sauvegarde et récupération des données
La sécurité des données est l’une des plus grandes préoccupations de chaque entreprise. Un système à haute disponibilité doit avoir des plans solides de protection des données et de reprise après sinistre.
Une nécessité absolue est d’avoir des sauvegardes appropriées. Une autre chose critique est la capacité de récupérer en cas de perte de données rapidement, de corruption ou de défaillance complète du stockage. Si votre entreprise exige des RTO et RPO faibles et que vous ne pouvez pas vous permettre de perdre des données, la meilleure option à envisager est d’utiliser la réplication des données. Il existe de nombreux plans de sauvegarde à choisir, en fonction de la taille de votre entreprise, de vos exigences et de votre budget.
La sauvegarde et la réplication des données vont de pair avec la haute disponibilité informatique. Les deux doivent être soigneusement planifiées. La création de sauvegardes complètes sur une infrastructure redondante est vitale pour assurer la résilience des données et ne doit pas être négligée.