Instabilidade nos Serviços de Autenticação aos Portais Unico e Contas de Serviço.

Incident Report for unico

Postmortem

Postmortem: Indisponibilidade Parcial do Serviço de Autenticação em 12 de Maio de 2025

Em 12 de maio de 2025, enfrentamos uma indisponibilidade parcial em nosso serviço de autenticação, que impactou algumas funcionalidades dependentes. Este relatório detalha o ocorrido, suas causas, as ações tomadas para mitigação e os aprendizados que tivemos.

Data do Incidente: 12 de Maio de 2025 Início: 17:02 (Horário de Brasília) Fim: 17:25 (Horário de Brasília) Duração: 23 minutos

Resumo

No dia 12 de maio de 2025, entre 17:02 e 17:25 (horário de Brasília), ocorreu uma instabilidade parcial no serviço interno de autenticação. Este incidente causou erros de autenticação em algumas dependências, afetando a experiência de alguns usuários. A causa raiz esteve relacionada à saturação do serviço de autenticação e timeouts nas conexões com o banco de dados. A equipe responsável atuou prontamente para normalizar a situação.

Impacto

Durante o período de instabilidade, que durou 23 minutos, os seguintes impactos foram observados:

Um serviço interno de gerenciamento de autenticação ficou parcialmente indisponível.

As dependências deste serviço começaram a registrar erros. 

Houve erros no fluxo de verificação de status de envelopes digitais (ID Sign), impactando processos que dependem da validação de documentos antes da assinatura (ID Docs). 

Causa Raiz

A indisponibilidade parcial foi desencadeada por uma saturação do serviço interno de gerenciamento de autenticação, que atingiu uma saturação gerando timeouts nas conexões com o banco de dados.

Resolução

A normalização do serviço ocorreu após ações da nossa equipe de tecnologia com o ScaleUp da aplicação de gerenciamento de autenticação, gerando a estabilização das conexões com o banco de dados.

Lições Aprendidas

Como resultado deste incidente, identificamos as seguintes oportunidades de melhoria:

  • Reavaliar os valores de autoescalonamento para o serviço é importante, pois o mesmo consumiu todos os seus recursos antes de iniciar o ScaleUp.
  • Analisar as configurações mínimas de requisições do serviço para otimizar o uso de CPU, dado o problema de saturação.
  • Aprimorar os alertas sistêmicos para melhor detecção.

Atenciosamente, Equipe Unico!

Posted May 22, 2025 - 11:40 GMT-03:00

Resolved

Incidente resolvido.
Após monitoramento, validamos que os Portais estão estáveis e funcionando corretamente.
Posted May 12, 2025 - 18:00 GMT-03:00

Monitoring

A execução das ações necessárias foi concluída com sucesso, restabelecendo o acesso aos Portais da Unico. Estamos iniciando a fase de operação assistida e monitorando a performance dos ambientes.
Posted May 12, 2025 - 17:45 GMT-03:00

Identified

Nossa monitoração identificou uma instabilidade em nosso sistema de autenticação aos portais da Unico e contas de serviço.
Nossa equipe de tecnologia está trabalhando para resolver o problema.
Posted May 12, 2025 - 17:30 GMT-03:00

Investigating

Nossa monitoração identificou um possível impacto em nosso sistema de autenticação aos portais da Unico e contas de serviço.
Nossa equipe de tecnologia está trabalhando para resolver o problema o mais breve,
Posted May 12, 2025 - 16:54 GMT-03:00
This incident affected: IDCloud | Portal Cliente (Portal Cliente), IDCloud | IDUnico (Portal Cliente), and IDCloud | Check (Portal Cliente).