Como calcular a percentagem de tempo de funcionamento de alta disponibilidade?
A disponibilidade é medida pelo tempo que um sistema específico permanece totalmente operacional durante um determinado período, geralmente um ano.
É expressa como uma percentagem. Note que o tempo de funcionamento não tem necessariamente de significar o mesmo que disponibilidade. Um sistema pode estar em funcionamento, mas não disponível para os usuários. As razões para isso podem ser problemas de rede ou de balanceamento de carga.
O tempo de atividade é normalmente expresso usando a classificação com cinco 9’s de disponibilidade.
Se você decidir ir para uma solução hospedada, isso será definido no Acordo de Nível de Serviço (SLA). Uma nota de “um nove” significa que a disponibilidade garantida é de 90%. Hoje, a maioria das organizações e empresas exigem ter pelo menos “três noves”, ou seja, 99,9% de disponibilidade.
As empresas têm diferentes necessidades de disponibilidade. Aqueles que precisam permanecer operacionais 24 horas por dia ao longo do ano terão como meta “cinco noves”, 99,999% do tempo de atividade. Pode parecer que 0,1% não faz assim tanta diferença. Entretanto, quando você converte isso em horas e minutos, os números são significativos.
Refer à tabela de noves para ver o tempo máximo de inatividade por ano cada nota envolve:
Nível de disponibilidade | Máximo de inatividade por ano | Pausa por dia |
Nove: 90% | 36.5 dias | 2,4 horas |
Dois Nove: 99% | 3,65 dias | 14 minutos |
Três Nove: 99,9% | 8,76 horas | 86 segundos |
Four Nines: 99,99% | 52,6 minutos | 8,6 segundos |
Five Nove: 99,999% | 5,25 minutos | 0,86 segundos |
Seis Nove: 99,9999% | 31,5 segundos | 8,6 milissegundos |
Como mostra a tabela, a diferença entre 99% e 99,9% é substancial.
Nota que é medida em dias por ano, não em horas ou minutos. Quanto maior for a escala de disponibilidade, o custo do serviço também aumentará.
Como calcular o tempo de inatividade? É essencial medir o tempo de inatividade para cada componente que possa afetar o funcionamento adequado de uma parte do sistema, ou de todo o sistema. A manutenção programada do sistema deve ser uma parte das medidas de disponibilidade. Esses tempos de inatividade planejados também causam uma parada no seu negócio, portanto você deve prestar atenção a isso também ao configurar o seu ambiente de TI.
Como você pode dizer, 100% do nível de disponibilidade não aparece na tabela.
Simplesmente colocado, nenhum sistema é totalmente à prova de falhas. Além disso, a mudança para componentes de backup levará algum tempo, sejam milissegundos, minutos ou horas.
Como alcançar alta disponibilidade
As empresas que procuram implementar soluções de alta disponibilidade precisam entender múltiplos componentes e requisitos necessários para que um sistema se qualifique como altamente disponível. Para assegurar a continuidade e operabilidade do negócio, aplicações e serviços críticos precisam estar funcionando 24 horas por dia. As melhores práticas para alcançar alta disponibilidade envolvem certas condições que precisam ser atendidas. Aqui estão 4 passos para alcançar 99,999% de confiabilidade e tempo de funcionamento.
Eliminar pontos únicos de falha alta disponibilidade vs. redundância
O elemento crítico dos sistemas de alta disponibilidade é eliminar pontos únicos de falha ao alcançar redundância em todos os níveis. Não importa se há um desastre natural, uma falha de hardware ou de energia, as infra-estruturas de TI devem ter componentes de backup para substituir o sistema falhado.
Existem diferentes níveis de redundância de componentes. Os mais comuns são:
- O modelo N+1 inclui a quantidade de equipamento (referido como ‘N’) necessária para manter o sistema em funcionamento. Está operacional com um componente de backup independente para cada um dos componentes no caso de ocorrer uma falha. Um exemplo seria usar uma fonte de alimentação adicional para um servidor de aplicações, mas este pode ser qualquer outro componente de TI. Este modelo é normalmente ativo/passivo. Os componentes de backup estão em standby, esperando para assumir o controle quando uma falha ocorre. A redundância N+1 também pode estar ativa/ativa. Nesse caso, os componentes de backup estão funcionando mesmo quando os componentes primários funcionam corretamente. Note que o modelo N+1 não é um sistema totalmente redundante.
- O modelo N+2 é similar ao N+1. A diferença é que o sistema seria capaz de suportar a falha de dois componentes iguais. Isto deve ser suficiente para manter a maioria das organizações em funcionamento nos noves altos.
- O modelo 2N contém o dobro de cada componente individual necessário para executar o sistema. A vantagem deste modelo é que você não precisa levar em consideração se houve falha de um único componente ou de todo o sistema. Você pode mover as operações inteiramente para os componentes de backup.
- O modelo 2N+1 fornece o mesmo nível de disponibilidade e redundância que o 2N com a adição de outro componente para melhor proteção.
A redundância final é alcançada através da redundância geográfica.
Esse é o único mecanismo contra desastres naturais e outros eventos de uma interrupção completa. Neste caso, os servidores são distribuídos em múltiplos locais em diferentes áreas.
Os locais devem ser colocados em cidades, países, ou mesmo continentes separados. Dessa forma, eles são totalmente independentes. Se uma falha catastrófica acontecer em um local, outro seria capaz de pegar e manter o negócio funcionando.
Este tipo de redundância tende a ser extremamente cara. A decisão mais sábia é optar por uma solução hospedada por um dos provedores com centros de dados localizados ao redor do mundo.
Próximo às falhas de energia, as falhas de rede representam uma das causas mais comuns de paralisação do negócio.
Por esse motivo, a rede deve ser projetada de tal forma que permaneça funcionando 24 horas por dia, 7 dias por semana, 365 dias por ano. Para atingir 100% de uptime do serviço de rede, tem de haver caminhos de rede alternativos. Cada um deles deve ter switches e roteadores redundantes de nível empresarial.
Backup e recuperação de dados
A segurança dos dados é uma das maiores preocupações de cada negócio. Um sistema de alta disponibilidade deve ter planos sólidos de proteção de dados e recuperação de desastres.
Um requisito absoluto é ter backups adequados. Outra coisa crítica é a capacidade de recuperação em caso de perda rápida de dados, corrupção ou falha completa do armazenamento. Se o seu negócio requer RTOs e RPOs baixos e você não pode se dar ao luxo de perder dados, a melhor opção a considerar é usar a replicação de dados. Há muitos planos de backup a escolher, dependendo do tamanho do seu negócio, dos requisitos e do orçamento.
Backup e replicação de dados andam de mãos dadas com a alta disponibilidade das TI. Ambos devem ser cuidadosamente planejados. Criar backups completos em uma infraestrutura redundante é vital para garantir a resiliência dos dados e não deve ser negligenciada.