No dia 8 de Abril de 2024, a partir das 17:45 nosso time identificou que clientes que utilizam integração síncrona tiveram 100% de falha no retorno de obtenção de score/retorno do produto ID Unico. Clientes que utilizam o método assíncrono tiveram degradação no tempo de resposta. O incidente foi solucionado por volta de 18:15, normalizando todos os tipos de operação.
Ao investigar, identificamos que o erro tinha relação com uma janela de mudança que ocorreu logo antes do incidente - tal mudança gerou um conflito na gestão de tráfego de rede, gerando falha de comunicação entre componentes da aplicação, sendo necessário realizar mudanças manuais para normalizar a situação.
Para evitar cenários futuros, criamos um plano de ação que consiste em: