Falha nos processos Biométricos - Unico Check
Incident Report for unico
Postmortem

No dia 28 de Fevereiro de 2024 tivemos um cenário de indisponibilidade de serviço do produto unico check à partir das 18h que afetou uma parcela dos clientes.

Ao investigar, nosso time identificou que a falha estava relacionada com uma janela de manutenção programada que a priori não teria qualquer impacto no ambiente de produção (sem indisponibilidade / impacto previsto). A falha teve relação com reinício inesperado de parte dos servidores de um cluster, gerando um impacto em um conjunto específico de clientes. Foi necessário então realizar ações administrativas nos servidores, como escalonamento e alterações no loadbalancer de tráfego, o que normalizou a operação as 18:39.

Para evitar cenários futuros, nosso time criou um plano de ação que consiste containerização de serviços específicos afim de ganhar agilidade/flexibilidade, revisões no pipeline de deploy das funcionalidades relacionadas com a mudança em questão e melhorias no sistema de monitoração e observabilidade.

Posted Mar 06, 2024 - 16:34 GMT-03:00

Resolved
Identificamos uma falha em nossos serviços que impactou nos processos biométricos resultando em erros para alguns clientes do Unico Check.
O problema teve inicio as 18h:00m e foi corrigido as 18h:39m
Nosso time realizou as correções necessárias e monitorou a aplicação para garantir a normalização dos ambientes.
Posted Feb 28, 2024 - 18:00 GMT-03:00
This incident affected: Unico Check (Score de autenticação, Liveness).