No dia 28 de Fevereiro de 2024 tivemos um cenário de indisponibilidade de serviço do produto unico check à partir das 18h que afetou uma parcela dos clientes.
Ao investigar, nosso time identificou que a falha estava relacionada com uma janela de manutenção programada que a priori não teria qualquer impacto no ambiente de produção (sem indisponibilidade / impacto previsto). A falha teve relação com reinício inesperado de parte dos servidores de um cluster, gerando um impacto em um conjunto específico de clientes. Foi necessário então realizar ações administrativas nos servidores, como escalonamento e alterações no loadbalancer de tráfego, o que normalizou a operação as 18:39.
Para evitar cenários futuros, nosso time criou um plano de ação que consiste containerização de serviços específicos afim de ganhar agilidade/flexibilidade, revisões no pipeline de deploy das funcionalidades relacionadas com a mudança em questão e melhorias no sistema de monitoração e observabilidade.