No dia 03 de Maio de 2024, a partir das 10:40 enfrentamos um incidente durante uma janela de manutenção na nossa plataforma de liveness utilizado pelos produtos da família ID. A falha gerou disponibilidade do serviço, gerando problemas de resposta e erros de integração. Ao investigar, identificamos que havia sido feito uma redução nos recursos operacionais disponíveis para o processamento. Para resolver o incidente, realizamos um aumento na capacidade de recursos da plataforma, normalizando os serviços por volta das 11:23.
Para evitar cenários futuros, criamos um plano de ação que consiste na revisão nas configurações e parametrizações de sizing, melhorias no processo de deploy/release management, revisões no mecanismo de alta disponibilidade.