Instabilidade na SDK e Prova de Vida

Incident Report for unico

Postmortem

Postmortem: Instabilidade na SDK e Prova de Vida

Resumo

No dia 06 de janeiro de 2026, entre 12:04 e 12:50 (horário de Brasília), experimentamos uma interrupção total nos serviços de captura de dados e biometria via SDK. O incidente foi desencadeado por uma alteração nas configurações de roteamento de rede durante uma atualização planejada para implementar redundância geográfica (multi-região). A falha foi corrigida através da reversão da configuração de rede, restaurando a normalidade em 46 minutos.

Impacto

O incidente teve um impacto de 100% de erro nas requisições de biometria durante o período de interrupção.

  • Serviços Afetados: Captura de dados e processamento de biometria facial (Liveness).

  • Experiência do Usuário: Clientes e usuários finais enfrentaram falhas críticas ao tentar realizar autenticações biométricas, resultando em erros de conexão e indisponibilidade de serviço.

Causa Raiz

A investigação técnica identificou que a causa raiz foi uma interferência na precedência de rotas dentro do nosso orquestrador de tráfego.

Durante o processo de automação para suporte multi-região, foi introduzida uma nova rota genérica nomeada como "default". Devido ao funcionamento do motor de templates utilizado em nossa esteira de implantação, as rotas foram ordenadas alfabeticamente no manifesto final. Como a palavra "default" precede alfabeticamente as rotas específicas de biometria, ela passou a interceptar todo o tráfego antes que as regras corretas pudessem ser processadas. Por não possuir critérios de filtragem específicos, essa nova rota direcionou o tráfego incorretamente, causando erros de processamento.

Resolução

A recuperação do serviço seguiu o cronograma abaixo:

  • 12:11: Primeiro alerta automático disparado pelo sistema de monitoramento.

  • 12:17: Detecção oficial e início da mobilização do time de engenharia.

  • 12:21: Identificação de que a falha estava ligada ao deployment recente de rede.

  • 12:47: Implementação da correção definitiva com a remoção da configuração de rota conflitante.

  • 12:50: Restauração completa de todos os serviços e início do período de monitoramento de estabilidade.

Lições Aprendidas

O incidente trouxe aprendizados valiosos para aprimorar a resiliência de nossa infraestrutura:

  • Ordenação de Tráfego: Identificamos a necessidade de implementar controles que garantam a ordem explícita de processamento de rotas, evitando que a ordenação automática por nome cause efeitos colaterais.

  • Validação de Manifestos: Verificamos uma oportunidade de melhoria em nossos processos de integração contínua para incluir a análise de diferenças de configurações de infraestrutura antes da aplicação em produção.

  • Precedência de Regras: Reforçamos a importância de testes de roteamento que validem não apenas a nova funcionalidade, mas se a precedência das regras existentes permanece íntegra após atualizações de rede.

Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro.

Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.

Atenciosamente, Equipe Unico.

Posted Jan 12, 2026 - 10:34 GMT-03:00

Resolved

Prezado Cliente,

Informamos que o incidente que afetava a nossa SDK e o serviço de Prova de Vida foi totalmente resolvido.

Após um período de monitoramento sem novas ocorrências, confirmamos que todos os serviços estão operando dentro da normalidade. Lamentamos qualquer transtorno causado e agradecemos a sua compreensão.

Atenciosamente, Equipe Unico
Posted Jan 06, 2026 - 13:00 GMT-03:00

Monitoring

Prezado Cliente,

Informamos que a causa da instabilidade na SDK e na Prova de Vida foi identificada e a correção já foi implementada.

Neste momento, nossos serviços operam com estabilidade. Permaneceremos monitorando as métricas de performance e o comportamento do ambiente por um período adicional para garantir a total normalização.

Atenciosamente, Equipe Unico
Posted Jan 06, 2026 - 12:48 GMT-03:00

Investigating

Prezado Cliente,

Identificamos uma instabilidade que afeta as chamadas de nossa SDK, com impacto direto nos produtos que usam a capacidade de Prova de Vida.

Nossa equipe de engenharia já está atuando na investigação da causa raiz para restabelecer a normalidade o quanto antes. Manteremos você informado sobre a evolução da correção através desta página.

Atenciosamente, Equipe Unico
Posted Jan 06, 2026 - 12:38 GMT-03:00
This incident affected: IDCloud | IDLive (Prova de Vida (API)).