No dia 06 de janeiro de 2026, entre 12:04 e 12:50 (horário de Brasília), experimentamos uma interrupção total nos serviços de captura de dados e biometria via SDK. O incidente foi desencadeado por uma alteração nas configurações de roteamento de rede durante uma atualização planejada para implementar redundância geográfica (multi-região). A falha foi corrigida através da reversão da configuração de rede, restaurando a normalidade em 46 minutos.
O incidente teve um impacto de 100% de erro nas requisições de biometria durante o período de interrupção.
Serviços Afetados: Captura de dados e processamento de biometria facial (Liveness).
Experiência do Usuário: Clientes e usuários finais enfrentaram falhas críticas ao tentar realizar autenticações biométricas, resultando em erros de conexão e indisponibilidade de serviço.
A investigação técnica identificou que a causa raiz foi uma interferência na precedência de rotas dentro do nosso orquestrador de tráfego.
Durante o processo de automação para suporte multi-região, foi introduzida uma nova rota genérica nomeada como "default". Devido ao funcionamento do motor de templates utilizado em nossa esteira de implantação, as rotas foram ordenadas alfabeticamente no manifesto final. Como a palavra "default" precede alfabeticamente as rotas específicas de biometria, ela passou a interceptar todo o tráfego antes que as regras corretas pudessem ser processadas. Por não possuir critérios de filtragem específicos, essa nova rota direcionou o tráfego incorretamente, causando erros de processamento.
A recuperação do serviço seguiu o cronograma abaixo:
12:11: Primeiro alerta automático disparado pelo sistema de monitoramento.
12:17: Detecção oficial e início da mobilização do time de engenharia.
12:21: Identificação de que a falha estava ligada ao deployment recente de rede.
12:47: Implementação da correção definitiva com a remoção da configuração de rota conflitante.
12:50: Restauração completa de todos os serviços e início do período de monitoramento de estabilidade.
O incidente trouxe aprendizados valiosos para aprimorar a resiliência de nossa infraestrutura:
Ordenação de Tráfego: Identificamos a necessidade de implementar controles que garantam a ordem explícita de processamento de rotas, evitando que a ordenação automática por nome cause efeitos colaterais.
Validação de Manifestos: Verificamos uma oportunidade de melhoria em nossos processos de integração contínua para incluir a análise de diferenças de configurações de infraestrutura antes da aplicação em produção.
Precedência de Regras: Reforçamos a importância de testes de roteamento que validem não apenas a nova funcionalidade, mas se a precedência das regras existentes permanece íntegra após atualizações de rede.
Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro.
Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.
Atenciosamente, Equipe Unico.