Postmortem: Instabilidade nos Serviços de Autenticação da Unico e Contas de Serviço, com impacto em todos os produtos
Resumo
No dia 1º de janeiro de 2026, nosso sistema de identidade enfrentou uma degradação que afetou a autenticação de usuários e a emissão de tokens de acesso. O incidente foi causado por um pico inesperado de tráfego que levou à saturação de memória dos servidores. A operação foi normalizada após o escalonamento manual da infraestrutura e o restabelecimento das conexões de banco de dados e cache.
Impacto
- Duração: O incidente durou aproximadamente 3 horas, entre 14:22 e 17:22 (Horário de Brasília).
- Serviços Afetados: Portais de login e sistemas de autenticação de usuários.
- Experiência do Usuário: Clientes enfrentaram erros intermitentes (HTTP 500 e 401) ao tentar realizar login ou validar sessões.
Causa Raiz
O gatilho foi um aumento abrupto e exponencial no volume de requisições em um curto intervalo. Esse aumento gerou os seguintes efeitos em cascata:
- Saturação de Memória: O alto volume de autenticações simultâneas e a criação massiva de chaves de cache consumiram toda a memória disponível nos processos ativos.
- Falha de Escalonamento Automático: As políticas de escalonamento automático estavam configuradas prioritariamente para observar o uso de CPU, não reagindo a tempo ao consumo crítico de memória.
- Ciclo de Reinicialização: Como resultado da saturação, os servidores entraram em um ciclo contínuo de reinicialização, impedindo a estabilização do serviço.
Resolução
Para mitigar o problema, a equipe de engenharia realizou as seguintes intervenções:
- Escalonamento Manual: Foi executado o aumento imediato da capacidade mínima e máxima de réplicas de todos os serviços críticos de autenticação para absorver a carga.
- Recuperação de Conexões: Após a estabilização da infraestrutura, foi necessário realizar o reinício manual de alguns componentes para garantir que a comunicação com as camadas de cache fosse totalmente reestabelecida.
- Monitoramento: O fluxo de erros foi monitorado até a queda total dos indicadores de falha, confirmada às 17:22.
Lições Aprendidas
- Aprimoramento do Autoscaling: Identificamos a necessidade de incluir métricas de memória como gatilhos mandatórios para o escalonamento automático de serviços de autenticação.
- Resiliência de Conexão: Observamos que alguns componentes não recuperavam a conexão com o banco de dados de cache automaticamente após falhas de rede, exigindo melhorias no mecanismo de retry e exponential backoff.
Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro.
Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.
Atenciosamente, Equipe Unico.