No dia 16 de Fevereiro a partir das 11h nosso time identificou alertas relacionados ao aumento de casos na fila de processamento para retorno do score biométrico do check. O aumento rápido desta fila gerou degradação e posteriormente indisponibilidade no retorno aos clientes.
Ao investigar, nosso time identificou que a falha estava relacionada a uma mudança recente no produto que gerou efeito coleteral indesejado. Para resolver o incidente tais mudanças foram desativadas (feature flags desativadas). Esta ação fez com que o problema não mais ocorresse, normalizando a operação as 12h.
Para evitar casos futuros, nosso time criou um plano de ação que consiste em rever procedimentos relacionados a ativação de feature flags, correções específicas ao problema das funcionalidades que geraram o impacto e melhorias no sistema de monitoração e observabilidade.