Come calcolare la percentuale di uptime di alta disponibilità?

La disponibilità è misurata da quanto tempo un sistema specifico rimane pienamente operativo durante un particolare periodo, di solito un anno.

E’ espresso in percentuale. Si noti che l’uptime non deve necessariamente significare la stessa cosa della disponibilità. Un sistema può essere attivo e funzionante, ma non disponibile per gli utenti. Le ragioni di questo possono essere problemi di rete o di bilanciamento del carico.

Il tempo di attività è solitamente espresso utilizzando la classificazione con cinque 9 di disponibilità.

Se si decide di andare per una soluzione ospitata, questo sarà definito nel Service Level Agreement (SLA). Un voto di “un nove” significa che la disponibilità garantita è del 90%. Oggi, la maggior parte delle organizzazioni e delle imprese richiedono di avere almeno “tre nove”, cioè il 99,9% di disponibilità.

Le imprese hanno diverse esigenze di disponibilità. Quelle che hanno bisogno di rimanere operative 24 ore su 24 per tutto l’anno puntano ai “cinque nove”, il 99,999% di uptime. Può sembrare che lo 0,1% non faccia molta differenza. Tuttavia, quando si converte questo in ore e minuti, i numeri sono significativi.

Riferimento alla tabella dei nove per vedere il tempo massimo di inattività all’anno che ogni grado comporta:

Livello di disponibilità Tempo massimo di inattività all’anno Downtime al giorno
Un nove: 90% 36.5 giorni 2,4 ore
Due nove: 99% 3.65 giorni 14 minuti
Tre nove: 99,9% 8,76 ore 86 secondi
Quattro nove: 99,99% 52,6 minuti 8,6 secondi
Cinque nove: 99,999% 5,25 minuti 0,86 secondi
Sei Nove: 99,9999% 31,5 secondi 8,6 millisecondi

Come mostra la tabella, la differenza tra 99% e 99,9% è sostanziale.

Nota che si misura in giorni per anno, non ore o minuti. Più si sale sulla scala della disponibilità, più aumenta anche il costo del servizio.

Come calcolare il tempo di inattività? È essenziale misurare il tempo di inattività per ogni componente che può influenzare il corretto funzionamento di una parte del sistema, o dell’intero sistema. La manutenzione programmata del sistema deve far parte delle misure di disponibilità. Questi tempi di inattività pianificati causano anche un arresto del vostro business, quindi dovreste prestare attenzione anche a questo quando impostate il vostro ambiente IT.

Come potete vedere, il livello di disponibilità al 100% non appare nella tabella.

In parole povere, nessun sistema è completamente a prova di errore. Inoltre, il passaggio ai componenti di backup richiederà un certo periodo, che si tratti di millisecondi, minuti o ore.

Come raggiungere l’alta disponibilità

Le aziende che cercano di implementare soluzioni di alta disponibilità hanno bisogno di capire più componenti e requisiti necessari affinché un sistema possa qualificarsi come altamente disponibile. Per garantire la continuità e l’operatività del business, le applicazioni e i servizi critici devono essere in funzione 24 ore su 24. Le migliori pratiche per raggiungere l’alta disponibilità comportano alcune condizioni che devono essere soddisfatte. Ecco 4 passi per raggiungere il 99,999% di affidabilità e uptime.

Eliminare i singoli punti di errore Alta disponibilità vs. ridondanza

L’elemento critico dei sistemi ad alta disponibilità è eliminare i singoli punti di errore raggiungendo la ridondanza a tutti i livelli. Non importa se c’è un disastro naturale, un guasto hardware o di alimentazione, le infrastrutture IT devono avere componenti di backup per sostituire il sistema fallito.

Ci sono diversi livelli di ridondanza dei componenti. I più comuni sono:

  • Il modello N+1 include la quantità di apparecchiature (indicate come ‘N’) necessarie per mantenere il sistema attivo. È operativo con un componente di backup indipendente per ciascuno dei componenti nel caso in cui si verifichi un guasto. Un esempio potrebbe essere l’utilizzo di un alimentatore aggiuntivo per un server di applicazioni, ma questo può essere qualsiasi altro componente IT. Questo modello è solitamente attivo/passivo. I componenti di backup sono in standby, in attesa di subentrare quando si verifica un guasto. La ridondanza N+1 può anche essere attiva/attiva. In questo caso, i componenti di backup sono in funzione anche quando i componenti primari funzionano correttamente. Si noti che il modello N+1 non è un sistema interamente ridondante.
  • Il modello N+2 è simile a N+1. La differenza è che il sistema sarebbe in grado di sopportare il guasto di due componenti uguali. Questo dovrebbe essere sufficiente per mantenere la maggior parte delle organizzazioni attive e funzionanti a livelli alti.
  • Il modello 2N contiene il doppio di ogni singolo componente necessario per far funzionare il sistema. Il vantaggio di questo modello è che non si deve prendere in considerazione se c’è stato un guasto di un singolo componente o dell’intero sistema. È possibile spostare le operazioni interamente ai componenti di backup.
  • Il modello 2N+1 fornisce lo stesso livello di disponibilità e ridondanza del 2N con l’aggiunta di un altro componente per una migliore protezione.

La ridondanza definitiva si ottiene attraverso la ridondanza geografica.

Questo è l’unico meccanismo contro i disastri naturali e altri eventi di interruzione completa. In questo caso, i server sono distribuiti su più sedi in aree diverse.

I siti dovrebbero essere collocati in città, paesi o addirittura continenti separati. In questo modo, sono completamente indipendenti. Se si verifica un guasto catastrofico in una sede, un’altra sarebbe in grado di raccogliere e mantenere il business in esecuzione.

Questo tipo di ridondanza tende ad essere estremamente costoso. La decisione più saggia è quella di optare per una soluzione ospitata da uno dei provider con data center situati in tutto il mondo.

Secondo le interruzioni di corrente, i guasti alla rete rappresentano una delle cause più comuni di tempi di inattività dell’azienda.

Per questo motivo, la rete deve essere progettata in modo tale da rimanere attiva 24/7/365. Per raggiungere il 100% di uptime del servizio di rete, ci devono essere percorsi di rete alternativi. Ognuno di essi dovrebbe avere switch e router ridondanti di livello enterprise.

Data Backup e recupero

La sicurezza dei dati è una delle maggiori preoccupazioni per ogni azienda. Un sistema ad alta disponibilità deve avere una solida protezione dei dati e piani di disaster recovery.

Un must assoluto è avere backup adeguati. Un’altra cosa critica è la capacità di recuperare rapidamente in caso di perdita di dati, corruzione o guasto completo dello storage. Se il vostro business richiede RTO e RPO bassi e non potete permettervi di perdere i dati, l’opzione migliore da considerare è l’utilizzo della replica dei dati. Ci sono molti piani di backup tra cui scegliere, a seconda delle dimensioni dell’azienda, dei requisiti e del budget.

Il backup e la replica dei dati vanno di pari passo con l’alta disponibilità IT. Entrambi dovrebbero essere pianificati con cura. La creazione di backup completi su un’infrastruttura ridondante è vitale per garantire la resilienza dei dati e non deve essere trascurata.

admin

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

lg