No dia durante um curto período de tempo (3 minutos) tivemos um cenário de degradação e aumento de taxa de erros devido a um fluxo relacionado com um fornecedor/dependência externa. Durante esse tempo o cliente pode ter enfrentado alguns erros na API ou então um tempo elevado para receber o retorno de suas respostas.
A resolução do incidente foi realizada através do chaveamento para o fornecedor secundário, normalizando a operação.
Para evitar cenários futuros, criamos um plano de ação que consiste em revisões nos alertas de monitoração, criação do chaveamento automático primário/backup, revisão de tempos de respostas (timeouts).