Incidente de Latência no Serviço ID Score (03/03/2025)
Resumo
No dia 03 de março de 2025, entre 08:15 e 08:55 (horário local), identificamos lentidão em nosso serviço assíncrono na capacidade de ID Score. Durante esse período, alguns clientes podem ter experienciado atrasos maiores que o normal no processamento de suas requisições. A causa foi uma única instância de um serviço relacionado que se tornou não responsiva devido a um alto consumo de processamento (CPU) após uma rotina de reinicialização. O problema foi resolvido quando a instância problemática foi automaticamente substituída.
Impacto
A alta latência afetou uma parcela de clientes cujas requisições de Score de Risco foram direcionadas para a instância de serviço que estava com problemas. Isso resultou em um tempo de espera prolongado para a conclusão do processamento assíncrono dessas solicitações específicas. Requisições processadas por outras instâncias do serviço não foram impactadas.
Causa Raiz
A causa raiz da lentidão foi uma instância específica de um serviço interno (parte do sistema de verificação) que entrou em um estado de alto consumo de CPU após passar por uma rotina de reinicialização. Esse alto consumo impediu que a instância processasse novas tarefas eficientemente, levando ao acúmulo e atraso no processamento das solicitações de score que dependiam dela.
Resolução
O sistema de orquestração detectou que a instância estava consumindo recursos excessivos e não estava respondendo adequadamente. Por volta das 08:55, a instância problemática foi automaticamente terminada e substituída por uma nova instância saudável. Isso restaurou a capacidade de processamento normal e resolveu o problema de latência.
Ações Corretivas
As seguintes ações estão em andamento para investigar a causa e melhorar a resposta a incidentes semelhantes:
Lições Aprendidas
Atenciosamente, Equipe Unico!