Instabilidade nos serviços IdCloud, IDPay, Unico People, Unico Skill, Unico Doc e Unico Auto e Canais de atendimento.

Incident Report for unico

Postmortem

Postmortem: Incidente de Instabilidade na Plataforma (12/06/2025)

Sumário

Em 12 de junho de 2025, entre 15:00 e 18:00 (horário de Brasília), nossa plataforma experimentou uma instabilidade generalizada, manifestada por erros de requisição. A causa primária foi um incidente global em uma de nossas dependências externas de infraestrutura, que impactou a conectividade e o desempenho de diversos serviços essenciais. Para mitigar a sobrecarga do sistema e proteger a infraestrutura, foram aplicados controles de limitação de requisições.

Impacto

O incidente resultou em degradação de vários serviços da plataforma, afetando a capacidade de clientes finais de concluir operações críticas, impactando todos os fluxos do ID Cloud e demais produtos. Clientes que utilizam nossa SDK para integrações foram particularmente afetados devido à natureza sequencial das chamadas necessárias para a conclusão das transações. As taxas de erro aumentaram significativamente durante o período, e a experiência do usuário foi impactada.

Causa Raiz

A causa raiz do incidente foi uma falha generalizada em uma dependência externa crítica (um provedor de serviços de nuvem, denonimado GCP), que afetou globalmente múltiplos de seus serviços gerenciados. Isso resultou em alta latência e erros intermitentes em nossas interações com esses serviços. Como medida de proteção, nossa equipe ativou mecanismos de limitação de requisições (rate-limit) em pontos estratégicos da nossa infraestrutura. Embora essa ação tenha sido crucial para prevenir uma sobrecarga ainda maior, a forma como nosso SDK interage com os serviços de backend, realizando múltiplas chamadas sequenciais para completar uma única operação, fez com que as sessões dos usuários fossem frequentemente bloqueadas pelo rate-limit, mesmo após a dependência externa começar a se estabilizar. Isso prolongou o período de degradação para os fluxos que dependiam dessas chamadas sequenciais.

Resolução

A resolução do incidente ocorreu em etapas:

  1. Detecção e Ativação do Plano de Resposta: A instabilidade foi detectada automaticamente, e nossa equipe de resposta a incidentes foi acionada imediatamente, iniciando uma sala de guerra virtual.
  2. Contato com a Dependência Externa: Foi feito contato com o provedor de serviços de nuvem através de canais de emergência, uma vez que seus próprios sistemas de suporte estavam instáveis.
  3. Medidas de Contenção Iniciais: Para evitar uma sobrecarga em nossos sistemas internos, foi realizada uma redução controlada na capacidade de alguns serviços de borda e implementados rate-limits globais em certos endpoints.
  4. Monitoramento e Normalização Gradual: À medida que a dependência externa começou a se estabilizar (com sinais de recuperação observados por volta das 16:00), nossa equipe iniciou o processo de reescalonamento dos serviços e, crucialmente, a remoção gradual dos limites de requisição.
  5. Estabilização Completa: A plataforma atingiu estabilidade completa e os rate-limits foram totalmente removidos às 17:15:43. O provedor de serviços de nuvem confirmou a mitigação total de seu incidente por volta das 17:48:33.

Atenciosamente, Equipe Unico!

Posted Jun 23, 2025 - 16:33 GMT-03:00

Resolved

Incidente resolvido.
Após monitoramento, validamos que o ambiente está operacional.
Posted Jun 12, 2025 - 18:04 GMT-03:00

Update

Informamos que nosso provedor de nuvem já identificou a causa da instabilidade, e solucionou a situação. Desta forma, nossos produtos e serviços estão restabelecidos.
Seguimos monitorando a situação e possíveis desdobramentos.
Posted Jun 12, 2025 - 17:38 GMT-03:00

Monitoring

Informamos que nosso provedor de nuvem já identificou a causa e está retornando à normalidade, desta forma, nossos produtos e serviços estão sendo restabelecidos. Seguimos monitorando a situação e possíveis desdobramentos.
Posted Jun 12, 2025 - 17:15 GMT-03:00

Update

Seguimos acompanhando novos updates do nosso provedor de nuvem.
Estamos em contato direto com eles para obter as últimas atualizações e resolver a situação o mais rápido possível.
Próxima atualização em 15min.
Posted Jun 12, 2025 - 16:39 GMT-03:00

Update

Identificamos que a instabilidade atual está sendo causada por um problema na infraestrutura de nosso provedor de nuvem. Estamos em contato direto com eles para obter as últimas atualizações e resolver a situação o mais rápido possível.
Posted Jun 12, 2025 - 15:29 GMT-03:00

Update

Identificamos que a instabilidade atual está sendo causada por um problema na infraestrutura de nosso provedor de nuvem. Estamos em contato direto com eles para obter as últimas atualizações e resolver a situação o mais rápido possível.
Posted Jun 12, 2025 - 15:13 GMT-03:00

Update

Identificamos a causa da instabilidade no serviço de Liveness integrada às capacidades da Unico. Nosso time de tecnologia está atuando para reestabelecer o ambiente. Em breve retornamos com atualizações.
Posted Jun 12, 2025 - 15:09 GMT-03:00

Identified

Identificamos a causa da instabilidade no serviço de Liveness integrada às capacidades da Unico. Nosso time de tecnologia está atuando para reestabelecer o ambiente. Em breve retornamos com atualizações.
Posted Jun 12, 2025 - 15:08 GMT-03:00
This incident affected: IDCloud | Check (Score de Risco (API), Token Biométrico (API)), IDPay (API), IDCloud | IDUnico (Verificação Identidade (API)), and IDCloud | IDLive (Prova de Vida (API)).