Falha e degradação tempo resposta retorno score - IDUnico
Incident Report for unico
Postmortem

No dia 8 de Abril de 2024, a partir das 17:45 nosso time identificou que clientes que utilizam integração síncrona tiveram 100% de falha no retorno de obtenção de score/retorno do produto ID Unico. Clientes que utilizam o método assíncrono tiveram degradação no tempo de resposta. O incidente foi solucionado por volta de 18:15, normalizando todos os tipos de operação.

Ao investigar, identificamos que o erro tinha relação com uma janela de mudança que ocorreu logo antes do incidente - tal mudança gerou um conflito na gestão de tráfego de rede, gerando falha de comunicação entre componentes da aplicação, sendo necessário realizar mudanças manuais para normalizar a situação.

Para evitar cenários futuros, criamos um plano de ação que consiste em:

  • melhorias no mecanismo de comunicação dos componentes em questão (rede/gateway);
  • revisão de SLOs e acordos internos
  • diversas melhorias e revisões no sistema de monitoração e observabilidade
Posted Apr 23, 2024 - 11:09 GMT-03:00

Resolved
Hoje a partir das 17:45 nosso time identificou que clientes que utilizam integração síncrona tiveram 100% de falha no retorno de obtenção de score/retorno do produto ID Unico.
Clientes que utilizam o método assíncrono tiveram degradação no tempo de resposta.
O incidente foi solucionado por volta de 18:15, normalizando todos os tipos de operação.
Posted Apr 08, 2024 - 17:45 GMT-03:00