No dia 22 de Março de 2024, durante o período das 17:30 às 17:54, enfrentamos uma interrupção total nos serviços do Auto, o que resultou em uma falha de disponibilidade para nossos clientes.
Ao investigar, identificamos que a falha teve início após uma mudança, onde uma paremetrização incorreta resultou em uma falha de comunicação entre nodes do cluster.
O rollback da mudança foi ativada e os serviços foram restaurados com sucesso às 17:54.
Para evitar cenários futuros, nosso time criou um plano para automatizar (e revisar) a configuração/parametrizações de gestão de permissões do cluster, além de melhorias no sistema de monitoração/observabilidade.