9 principais causas de downtime em data center
Entenda as principais causas de queda do data center e aprenda a evitar prejuízos à sua empresa!
Se você trabalha diretamente com data center em sua empresa, já sabe o quanto de prejuízo uma parada não planejada pode trazer aos processos críticos. O downtime em data center pode ter causas diversas porém, conforme pesquisa divulgada pela americana Emerson Network Power, a esmagadora maioria das falhas são originadas por erros humanos e mecânicos. Preocupante? Sim, mas a maioria deles podem ser prevenidos!
Para ajudar você a evitar esse problema, nós reunimos as 10 principais causas comuns de falha em data centers!
1. Falta de manutenção e testes nos equipamentos redundantes
A maior parte das causas de downtime no data center estão ligadas a problemas no sistema elétrico. As interrupções de energia ocorrem todo o tempo e é por isso que os data centers são projetados com equipamentos redundantes que atuam como fontes de energia, como geradores e Nobreaks/UPS, que entram em funcionamento logo que haja falhas no abastecimento.
Contudo, muitas vezes, essas baterias não passam por substituições periódicas e os geradores não são testados. Assim, eles podem não estar prontos para uso quando você mais precisa.
2. Falta de controle de acesso
Consegue imaginar como seria passar um longo período em downtime porque um operador não autorizado reiniciou involuntariamente todas as máquinas virtuais de instalação? Foi isso o que aconteceu com a empresa norte americana Joyent, em 2014, tudo por conta de acesso irrestrito ao data center.
Para evitar esse tipo de situação, vale a pena investir em câmeras de segurança, painéis de segurança com senhas, controles de acesso por cartões ou acesso biométrico.
3. Processos incorretos
Um dos procedimentos mais negligenciados em data center é o retorno após a manutenção. É comum que o processo não seja devidamente examinado e documentado, o que pode gerar diversas falhas na hora de reiniciar o data center.
Não é raro que esse tipo de erro ocorra por profissionais não especializados realizando procedimentos de manutenção. Caso precise de uma equipe técnica, a Datacenter Solutions possui profissionais altamente qualificados para oferecer o suporte que você precisa.
4. Mudanças não calculadas
O excesso de mudanças realizadas ao mesmo tempo durante a manutenção do data center pode causar falhas e interrupções no sistema. Esse tipo de erro pode transformar uma solução simples de problemas em uma queda grave e difícil de resolver.
5. Sistema de resfriamento falho
O grande calor liberado pelos servidores é imediato e pode colocar em risco todo o seu data center. Por isso, o sistema de resfriamento é uma dos fatores mais importantes na prevenção de quedas. É fundamental que, além de sensores de temperatura e alertas, os aparelhos de ar condicionado redundantes estejam prontos para uso em qualquer emergência!
6. Falta de automação nos procedimentos de tolerância a falhas
Quando bem desenvolvidos, os sistemas automatizados de tolerância a falhas são capazes de mover com urgência todo o tráfego para a instalação de backup ou início dos sistemas redundantes. Contudo, novamente, a falta de verificações regulares pode colocar em risco todo o seu trabalho.
Mesmo mudanças mínimas na infraestrutura pode causar um grande impacto nos processos de tolerância. Por isso, a qualquer alteração, não se esqueça de realizar os testes regulares!
7. Hardware desatualizado
É normal que seu hardware, em algum momento, venha a falhar. Contudo, o risco de isso acontecer e causar uma falha crítica fica muito maior se esse hardware for antigo.
Por isso, é crucial que seja estabelecido um plano de migração abrangente para uma nova plataforma. Caso você esteja se perguntando “Mas realmente vale a pena gastar um orçamento para a troca de um hardware que ainda funciona?”, lembre-se de que o risco envolvido com um downtime pode ser muito maior do que o custo do upgrade!
8. Combate a incêndios à base de água
Atualmente, é bastante raro que data centers utilizem sistemas de combate de incêndio à base de água. O pó químico é muito mais eficaz, não danificando os equipamentos. Porém, em instalações mais antigas, isso ainda acontece. Quando a água entra em contato com os servidores, eles são danificados na mesma hora, causando longas indisponibilidades ao data center.
9. Manutenção não planejada
Apesar de ser o último item dessa lista, podemos ver que a falta de manutenção adequada está diretamente ligada à maior parte das causas de downtime que apontamos acima.
A última razão que escolhemos para listar é a falta de planejamento nas alterações do servidor. O procedimento correto exige que essa execução seja agendada com a equipe de suporte. Porém, existem situações em que pequenas mudanças parecem simples e sem riscos. Contudo, essa mínima ação pode trazer uma interrupção inesperada.
Por isso, certifique-se de que sua empresa está bem assegurada com um bom planejamento de manutenção e suporte. A Datacenter Solutions oferece o que é essencial para o sucesso do seu data center. Se precisa de ajuda para verificar todos os itens que mostramos e garantir o bom funcionamento da sua infraestrutura de TI, entre em contato conosco!