Em 12 de junho de 2025, entre 15:00 e 18:00 (horário de Brasília), nossa plataforma experimentou uma instabilidade generalizada, manifestada por erros de requisição. A causa primária foi um incidente global em uma de nossas dependências externas de infraestrutura, que impactou a conectividade e o desempenho de diversos serviços essenciais. Para mitigar a sobrecarga do sistema e proteger a infraestrutura, foram aplicados controles de limitação de requisições.
O incidente resultou em degradação de vários serviços da plataforma, afetando a capacidade de clientes finais de concluir operações críticas, impactando todos os fluxos do ID Cloud e demais produtos. Clientes que utilizam nossa SDK para integrações foram particularmente afetados devido à natureza sequencial das chamadas necessárias para a conclusão das transações. As taxas de erro aumentaram significativamente durante o período, e a experiência do usuário foi impactada.
A causa raiz do incidente foi uma falha generalizada em uma dependência externa crítica (um provedor de serviços de nuvem, denonimado GCP), que afetou globalmente múltiplos de seus serviços gerenciados. Isso resultou em alta latência e erros intermitentes em nossas interações com esses serviços. Como medida de proteção, nossa equipe ativou mecanismos de limitação de requisições (rate-limit) em pontos estratégicos da nossa infraestrutura. Embora essa ação tenha sido crucial para prevenir uma sobrecarga ainda maior, a forma como nosso SDK interage com os serviços de backend, realizando múltiplas chamadas sequenciais para completar uma única operação, fez com que as sessões dos usuários fossem frequentemente bloqueadas pelo rate-limit, mesmo após a dependência externa começar a se estabilizar. Isso prolongou o período de degradação para os fluxos que dependiam dessas chamadas sequenciais.
A resolução do incidente ocorreu em etapas:
Atenciosamente, Equipe Unico!