Postmortem: Instabilidade nos Serviços de Autenticação e Geração de tokens afetando Contas de Serviço.
Data: 31 de julho de 2025
Duração: ~2 horas (11:40 - 13:40)
Impacto: Erros 400 de autenticação afetando clientes
Resumo Geral
Durante a implementação de melhorias de segurança na TCA , uma alteração no middleware de autenticação causou erros 400 para clientes que não possuíam o escopo adequado em seus tokens de acesso.
Linha do Tempo
- 11:38 - Feature flag habilitada para validação do escopo
- 11:40 - Início dos erros 400 reportados pelos clientes
- 13:40 - Feature flag desabilitada, normalizando o serviço
- 16:49 - Investigação formal iniciada pela equipe
- 16:51 - Causa raiz identificada
Causa Raiz
O incidente teve origem em duas causas principais que se combinaram:
- Decisão Estratégica Inicial vs. Correção de Segurança
Contexto histórico: No início da TCA, a Unico priorizou facilitar e acelerar a adoção pelos clientes, optando por não exigir o escopo idu nos tokens de acesso. Essa decisão estratégica permitiu que clientes migrassem rapidamente do Check para a TCA sem necessidade de reconfigurar suas Service Accounts.
Detalhamento técnico:
- O escopo idu é necessário para acessar informações de filiais dos processos no idunico
- Clientes migrados do Check mantiveram SAs sem essa permissão por decisão estratégica inicial
- A validação foi implementada abruptamente como parte de correções de segurança mais amplas
- O erro 400 substituiu o anterior erro 500, revelando a extensão do problema de permissões
Impacto nos Clientes
- Clientes sem o escopo idu no token passaram a receber erro 400 (Bad Request)
- Indisponibilidade temporária para clientes não autorizados adequadamente
- Necessidade de comunicação e ajuste de permissões para clientes afetados
Ações Corretivas
- Mapeamento dos clientes impactados através dos logs
- Análise de permissões necessárias para cada cliente
- Definição de plano de ação para regularizar acessos
Lições Aprendidas
Processo de Investigação
Durante a gestão deste incidente, a equipe identificou oportunidades importantes de melhoria:
- Foco e Priorização: Manter o foco na causa raiz primária, evitando dispersão em problemas secundários (como questões de liveness que foram consequência da restauração de acessos)
- Análise de Problemas de Token: Implementar processo estruturado para investigação de reclamações relacionadas a tokens, incluindo identificação precisa do tipo, validação de escopo e análise do contexto de uso
- Mapeamento do Fluxo de Erro: Estabelecer metodologia para identificar rapidamente em qual etapa do processo o cliente está enfrentando problemas (captura, geração de token, criação de processos, etc.)