Degradação na plataforma - Unico auto
Incident Report for unico
Postmortem

No dia 22 de Março de 2024, durante o período das 17:30 às 17:54, enfrentamos uma interrupção total nos serviços do Auto, o que resultou em uma falha de disponibilidade para nossos clientes.

Ao investigar, identificamos que a falha teve início após uma mudança, onde uma paremetrização incorreta resultou em uma falha de comunicação entre nodes do cluster.

O rollback da mudança foi ativada e os serviços foram restaurados com sucesso às 17:54.

Para evitar cenários futuros, nosso time criou um plano para automatizar (e revisar) a configuração/parametrizações de gestão de permissões do cluster, além de melhorias no sistema de monitoração/observabilidade.

Posted Apr 15, 2024 - 14:55 GMT-03:00

Resolved
Ambiente normalizado.
Posted Mar 22, 2024 - 18:32 GMT-03:00
Monitoring
Realizamos as correções necessárias e agora o ambiente se encontra em sua normalidade, estamos monitorando o ambiente.
Posted Mar 22, 2024 - 18:06 GMT-03:00
Identified
Identificamos uma falha em nosso sistema em retorna em erro ao acessos documentos e processos, nosso time ja esta atuando para resolver o mais breve possível
Posted Mar 22, 2024 - 17:46 GMT-03:00
This incident affected: Unico Auto (Gestão de Documentos, Gestão de Processos).