Instabilidade nos Serviços de Autenticação aos Portais Unico e Contas de Serviço, com impacto em todos os produtos

Incident Report for unico

Postmortem

Postmortem: Instabilidade nos Serviços de Autenticação da Unico e Contas de Serviço, com impacto em todos os produtos

Resumo

No dia 1º de janeiro de 2026, nosso sistema de identidade enfrentou uma degradação que afetou a autenticação de usuários e a emissão de tokens de acesso. O incidente foi causado por um pico inesperado de tráfego que levou à saturação de memória dos servidores. A operação foi normalizada após o escalonamento manual da infraestrutura e o restabelecimento das conexões de banco de dados e cache.

Impacto

  • Duração: O incidente durou aproximadamente 3 horas, entre 14:22 e 17:22 (Horário de Brasília).
  • Serviços Afetados: Portais de login e sistemas de autenticação de usuários.
  • Experiência do Usuário: Clientes enfrentaram erros intermitentes (HTTP 500 e 401) ao tentar realizar login ou validar sessões.

Causa Raiz

O gatilho foi um aumento abrupto e exponencial no volume de requisições em um curto intervalo. Esse aumento gerou os seguintes efeitos em cascata:

  1. Saturação de Memória: O alto volume de autenticações simultâneas e a criação massiva de chaves de cache consumiram toda a memória disponível nos processos ativos.
  2. Falha de Escalonamento Automático: As políticas de escalonamento automático estavam configuradas prioritariamente para observar o uso de CPU, não reagindo a tempo ao consumo crítico de memória.
  3. Ciclo de Reinicialização: Como resultado da saturação, os servidores entraram em um ciclo contínuo de reinicialização, impedindo a estabilização do serviço.

Resolução

Para mitigar o problema, a equipe de engenharia realizou as seguintes intervenções:

  • Escalonamento Manual: Foi executado o aumento imediato da capacidade mínima e máxima de réplicas de todos os serviços críticos de autenticação para absorver a carga.
  • Recuperação de Conexões: Após a estabilização da infraestrutura, foi necessário realizar o reinício manual de alguns componentes para garantir que a comunicação com as camadas de cache fosse totalmente reestabelecida.
  • Monitoramento: O fluxo de erros foi monitorado até a queda total dos indicadores de falha, confirmada às 17:22.

Lições Aprendidas

  • Aprimoramento do Autoscaling: Identificamos a necessidade de incluir métricas de memória como gatilhos mandatórios para o escalonamento automático de serviços de autenticação.
  • Resiliência de Conexão: Observamos que alguns componentes não recuperavam a conexão com o banco de dados de cache automaticamente após falhas de rede, exigindo melhorias no mecanismo de retry e exponential backoff.

Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro.

Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.

Atenciosamente, Equipe Unico.

Posted Jan 08, 2026 - 15:45 GMT-03:00

Resolved

Incidente resolvido.

Após monitoramento, validamos que os Portais estão estáveis e funcionando corretamente.

A causa raiz ainda será determinada através de um Postmortem, mas o gatilho foi um comportamento de saturação no serviço. Durante esse período, toda requisição de autenticação foi impactada por erros 500.
Posted Jan 01, 2026 - 16:26 GMT-03:00

Monitoring

A execução das ações necessárias foi concluída com sucesso, restabelecendo o acesso aos Portais da Unico. Estamos iniciando a fase de operação assistida e monitorando a performance dos ambientes.
Posted Jan 01, 2026 - 16:08 GMT-03:00

Identified

Identificamos o motivador da instabilidade no acesso aos Portais da Unico com impacto em todos os produtos. Nossa equipe de tecnologia está atuando para solução desde incidente. Em breve traremos atualizações.
Posted Jan 01, 2026 - 15:29 GMT-03:00

Investigating

Estamos investigando uma instabilidade em nosso sistema de autenticação aos portais da unico e contas de serviço para autenticação via API.
Posted Jan 01, 2026 - 14:51 GMT-03:00
This incident affected: IDCloud | Check (Score de Risco (API), Token Biométrico (API), Portal Cliente, Fluxo de mensagens, Assinatura Eletrônica), IDPay (API, Portal Cliente, Fluxo de mensagens), IDCloud | IDUnico (Verificação Identidade (API), Portal Cliente, Fluxo de mensagens), IDCloud | IDLive (Prova de Vida (API)), ID Cloud | IDTrust (IDTrust | Alerta de Comportamento (API)), IDCloud | IDSign (Assinatura Eletrônica (API), Fluxo de mensagens, My Sign), IDCloud | IDDocs (Documentos (API)), IDCloud | Portal Cliente (Portal Cliente), IDCloud - By Unico (IDCloud - By Unico (API), Fluxo de mensagens, Assinatura Eletrônica), IDCloud - ID Serpro (ID Serpro (API)), and IDCloud - By Client (SDK).