Indisponibilidade do produto Unico Auto
Incident Report for unico
Postmortem

[Indisponibilidade do produto Unico Auto]

Alinhados aos nossos princípios de parceria e transparência com os nossos clientes, informamos, abaixo, mais detalhes referentes ao incidente ocorrido em 25/11/2022, às 21:47 e finalizado em 25/11/2022, às 22:45. Reforçamos que nossos esforços são para que a operação do seu sistema aconteça sempre com a máxima prontidão, performance e as tecnologias mais eficientes do mercado embasadas na Privacidade dos Dados e Segurança da Informação. A resolução foi concluída em 58m0s.

Descrição

Indisponibilidade no site do Unico Auto. A monitoração detectou a falha do health-check do app.vianuvem.com.br/auto/login

Impacto

Clientes que tentavam acessar a plataforma web não conseguiam e recebiam um erro de timeout.

Investigação da causa raiz

Por que a aplicação ficou indisponível?

Porque ao abrir o site app.vianuvem.com.br o mesmo apresentava o erro 504 para o usuário, não retornando a pagina de Login conforme o esperado. Identificamos que o Load balance, responsável por receber as requisições, não conseguia enviar o tráfego para o seu backend.

Por que isso estava ocorrendo?

Porque os servidores que recebem as conexões do Load balance não estavam Healthy para o Load balance.

Por que?

O serviço responsável por servir a aplicação não estava ativo e a rotina de healthcheck não tomou a ação de reiniciar as máquinas.

Por que?

Porque o AutoScaling não estava configurado corretamente, dessa forma não fazia o recycle das instâncias caso o healthcheck falhasse.

Tivemos sorte

O incidente ocorreu fora do horário comercial, minimizando a percepção de impacto para o cliente. A solução do incidente foi simples.

Tivemos azar

Os alertas estavam configurados apenas para a equipe de SWE, mas já colocamos os alertas do Auto no pagerduty do time de SRE também.

Lições aprendidas

Adição da monitoração de uso da home screen da url app.vianuvem.com.br, monitorando o return code da página.

Posted Nov 28, 2022 - 18:35 GMT-03:00

Resolved
O problema foi resolvido e o Unico Auto está novamente disponível
Posted Nov 25, 2022 - 22:15 GMT-03:00
Investigating
O produto Unico Auto está com acesso indisponível
Posted Nov 25, 2022 - 21:45 GMT-03:00
This incident affected: Unico Auto (Website).