Instabilidade nos Serviços de Autenticação e Geração de tokens afetando Contas de Serviço.

Incident Report for unico

Postmortem

Postmortem: Instabilidade nos Serviços de Autenticação e Geração de tokens afetando Contas de Serviço.

Data: 31 de julho de 2025

Duração: ~2 horas (11:40 - 13:40)

Impacto:  Erros 400 de autenticação afetando clientes

Resumo Geral

Durante a implementação de melhorias de segurança na TCA , uma alteração no middleware de autenticação causou erros 400 para clientes que não possuíam o escopo adequado em seus tokens de acesso.

Linha do Tempo

  • 11:38 - Feature flag habilitada para validação do escopo
  • 11:40 - Início dos erros 400 reportados pelos clientes
  • 13:40 - Feature flag desabilitada, normalizando o serviço
  • 16:49 - Investigação formal iniciada pela equipe
  • 16:51 - Causa raiz identificada

Causa Raiz

O incidente teve origem em duas causas principais que se combinaram:

  1. Decisão Estratégica Inicial vs. Correção de Segurança

Contexto histórico: No início da TCA, a Unico priorizou facilitar e acelerar a adoção pelos clientes, optando por não exigir o escopo idu nos tokens de acesso. Essa decisão estratégica permitiu que clientes migrassem rapidamente do Check para a TCA sem necessidade de reconfigurar suas Service Accounts.

Detalhamento técnico:

  • O escopo idu é necessário para acessar informações de filiais dos processos no idunico
  • Clientes migrados do Check mantiveram SAs sem essa permissão por decisão estratégica inicial
  • A validação foi implementada abruptamente como parte de correções de segurança mais amplas
  • O erro 400 substituiu o anterior erro 500, revelando a extensão do problema de permissões

Impacto nos Clientes

  • Clientes sem o escopo idu no token passaram a receber erro 400 (Bad Request)
  • Indisponibilidade temporária para clientes não autorizados adequadamente
  • Necessidade de comunicação e ajuste de permissões para clientes afetados

Ações Corretivas

  1. Mapeamento dos clientes impactados através dos logs
  2. Análise de permissões necessárias para cada cliente
  3. Definição de plano de ação para regularizar acessos

Lições Aprendidas

Processo de Investigação

Durante a gestão deste incidente, a equipe identificou oportunidades importantes de melhoria:

  • Foco e Priorização: Manter o foco na causa raiz primária, evitando dispersão em problemas secundários (como questões de liveness que foram consequência da restauração de acessos)
  • Análise de Problemas de Token: Implementar processo estruturado para investigação de reclamações relacionadas a tokens, incluindo identificação precisa do tipo, validação de escopo e análise do contexto de uso
  • Mapeamento do Fluxo de Erro: Estabelecer metodologia para identificar rapidamente em qual etapa do processo o cliente está enfrentando problemas (captura, geração de token, criação de processos, etc.)
Posted Aug 01, 2025 - 11:13 GMT-03:00

Resolved

Prezado Cliente,

Identificamos e sanamos um incidente no serviço de geração e autenticação de Tokens. Nossa equipe de engenharia atuou prontamente para resolver o problema, e o ambiente já foi totalmente restabelecido.

Durante o período do incidente, alguns de nossos clientes podem ter enfrentado instabilidade. Nossa análise mostra que a taxa de erro ponderada para os clientes afetados foi de 2.05%, com base em uma média de aproximadamente 900 processos neste período.

Lamentamos qualquer transtorno que isso possa ter causado e agradecemos a sua compreensão. Estamos à disposição para qualquer dúvida através dos nossos canais de atendimento.

Atenciosamente,
Equipe unico.
Posted Jul 31, 2025 - 11:30 GMT-03:00