Alinhados aos nossos princípios de parceria e transparência com os nossos clientes, informamos, abaixo, mais detalhes referentes ao incidente ocorrido em 25/11/2022, às 21:47 e finalizado em 25/11/2022, às 22:45. Reforçamos que nossos esforços são para que a operação do seu sistema aconteça sempre com a máxima prontidão, performance e as tecnologias mais eficientes do mercado embasadas na Privacidade dos Dados e Segurança da Informação. A resolução foi concluída em 58m0s.
Indisponibilidade no site do Unico Auto. A monitoração detectou a falha do health-check do app.vianuvem.com.br/auto/login
Clientes que tentavam acessar a plataforma web não conseguiam e recebiam um erro de timeout.
Por que a aplicação ficou indisponível?
Porque ao abrir o site app.vianuvem.com.br o mesmo apresentava o erro 504 para o usuário, não retornando a pagina de Login conforme o esperado. Identificamos que o Load balance, responsável por receber as requisições, não conseguia enviar o tráfego para o seu backend.
Por que isso estava ocorrendo?
Porque os servidores que recebem as conexões do Load balance não estavam Healthy para o Load balance.
Por que?
O serviço responsável por servir a aplicação não estava ativo e a rotina de healthcheck não tomou a ação de reiniciar as máquinas.
Por que?
Porque o AutoScaling não estava configurado corretamente, dessa forma não fazia o recycle das instâncias caso o healthcheck falhasse.
O incidente ocorreu fora do horário comercial, minimizando a percepção de impacto para o cliente. A solução do incidente foi simples.
Os alertas estavam configurados apenas para a equipe de SWE, mas já colocamos os alertas do Auto no pagerduty do time de SRE também.
Adição da monitoração de uso da home screen da url app.vianuvem.com.br, monitorando o return code da página.