Instabilidade no Serviço de Score de Risco (ID Check) causando aumento de latencia no retorno das requisições.

Incident Report for unico

Postmortem

Incidente de Latência no Serviço ID Score (03/03/2025)

Resumo
No dia 03 de março de 2025, entre 08:15 e 08:55 (horário local), identificamos lentidão em nosso serviço assíncrono na capacidade de ID Score. Durante esse período, alguns clientes podem ter experienciado atrasos maiores que o normal no processamento de suas requisições. A causa foi uma única instância de um serviço relacionado que se tornou não responsiva devido a um alto consumo de processamento (CPU) após uma rotina de reinicialização. O problema foi resolvido quando a instância problemática foi automaticamente substituída.

Impacto
A alta latência afetou uma parcela de clientes cujas requisições de Score de Risco foram direcionadas para a instância de serviço que estava com problemas. Isso resultou em um tempo de espera prolongado para a conclusão do processamento assíncrono dessas solicitações específicas. Requisições processadas por outras instâncias do serviço não foram impactadas.

Causa Raiz
A causa raiz da lentidão foi uma instância específica de um serviço interno (parte do sistema de verificação) que entrou em um estado de alto consumo de CPU após passar por uma rotina de reinicialização. Esse alto consumo impediu que a instância processasse novas tarefas eficientemente, levando ao acúmulo e atraso no processamento das solicitações de score que dependiam dela.

Resolução
O sistema de orquestração detectou que a instância estava consumindo recursos excessivos e não estava respondendo adequadamente. Por volta das 08:55, a instância problemática foi automaticamente terminada e substituída por uma nova instância saudável. Isso restaurou a capacidade de processamento normal e resolveu o problema de latência.

Ações Corretivas
As seguintes ações estão em andamento para investigar a causa e melhorar a resposta a incidentes semelhantes:

  • Investigação a causa do alto consumo de CPU durante a rotina de reinicialização da instância de serviço.
  • Criação de um guia operacional (runbook) para ajudar as equipes a identificar e isolar rapidamente problemas de consumo de recursos por cliente ou instância específica.

Lições Aprendidas

  • Instâncias individuais de serviços podem se tornar gargalos devido a problemas internos, como alto consumo de recursos, afetando o desempenho geral do sistema de forma intermitente.
  • Mecanismos automáticos de detecção e substituição de instâncias não saudáveis são essenciais, mas podem levar algum tempo para atuar, durante o qual o impacto pode ser sentido pelos usuários.
  • É importante ter ferramentas e procedimentos para investigar rapidamente o consumo de recursos em nível de instância para acelerar o diagnóstico e a resolução manual, se necessário.

Atenciosamente, Equipe Unico!

Posted Mar 25, 2025 - 14:06 GMT-03:00

Resolved

Identificamos uma instabilidade no retorno das requisições de Score de Risco em alguns clientes(ID Check).
Nossa equipe de tecnologia atuou prontamente na resolução do incidente, todos os serviços ja estão normalizados.
O incidente teve duração de 08:16 - 08:55.
Posted Mar 03, 2025 - 08:16 GMT-03:00