Instabilidade nos disparos de Webhook nas capacidades IDCloud e IDPay

Incident Report for unico

Postmortem

Postmortem Executivo: Interrupção do Serviço By-Unico

Visão Geral do Incidente

  • Nível de Severidade: Crítico (P1)
  • Duração: 1 hora e 46 minutos (21:09 às 22:54 BRT)
  • Detecção: Alerta de monitoramento automático
  • Serviço Afetado: by-unico

O Que Aconteceu?

Em 22 de outubro de 2025, às 21:09, uma falha técnica em nosso sistema de processamento de dados impediu que os clientes concluíssem seus processos de verificação de identidade. O problema afetou o sistema de notificação automatizado que confirma quando a verificação de um cliente está completa, bloqueando-os de finalizar suas transações.

Análise da Causa Raiz

O Que Desencadeou o Problema?

Um componente de processamento de dados que lida com notificações em tempo real (webhook) parou de funcionar corretamente. Este componente é responsável por informar aos clientes quando a verificação deles está completa.

Por Que Isso Aconteceu?

  • Problema Primário: O sistema ficou saturado devido a um pico de tráfego inesperado. O componente não escalou automaticamente para lidar com o volume aumentado.
  • Problema Crítico: Quando o sistema encontrou esse erro, ele parou de processar, mas não reiniciou automaticamente. Não havia monitoramento de health check automatizado monitorando este componente, então ele permaneceu em um estado "preso" não detectado por nossos sistemas de monitoramento.
  • Falha em Cascata: Uma vez que isso aconteceu:
1. Novas notificações de verificação não puderam ser enviadas.
2. Mensagens começaram a se acumular \(como uma caixa de entrada transbordando\).
3. Quando o sistema finalmente reiniciou, teve que processar milhares de mensagens acumuladas.
4. Esse aumento esmagador fez com que o serviço de entrega de notificações ficasse sobrecarregado.
5. O banco de dados que servia o sistema de notificação ficou sem conexões disponíveis.

Lacunas Iniciais Que Contribuíram para o Incidente

  • Sem monitoramento de saúde automático para detectar quando o processador de dados parou de funcionar.
  • Limites de conexão do banco de dados eram muito baixos para períodos de pico de tráfego.
  • Sem mecanismo de recuperação automatizado para reiniciar o componente que falhou.
  • Clientes sem mecanismos de fallback para falha de webhook implementados, conforme documentado em nossas diretrizes de integração.

Resumo e Conclusão

Em 22 de outubro, às 21:09, uma falha em nosso pipeline de processamento de dados impediu que os clientes recebessem notificações sobre seus processos de verificação concluídos. Isso bloqueou os clientes de finalizar suas transações. Após identificar e reiniciar o componente com falha às 21:36, tivemos que processar um backlog (acúmulo) de mais de 75 minutos de mensagens acumuladas. Esse aumento maciço sobrecarregou nosso sistema de entrega de notificações, fazendo com que ele desacelerasse significativamente. Às 22:25, havíamos restaurado totalmente o serviço e os clientes puderam concluir seus processos normalmente.

Aprendizados Chave e Itens de Ação

Próximas Etapas

Todos os itens de ação foram priorizados e atribuídos às respectivas equipes. A ação imediata mais crítica é a implementação de monitoramento de saúde automático para prevenir falhas semelhantes não detectadas no futuro.

Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.

Atenciosamente, Equipe Unico.

Posted Oct 31, 2025 - 17:31 GMT-03:00

Resolved

Prezado Cliente,

Os serviços de disparos de webhook foram normalizados.
Pedimos desculpas pelo ocorrido, em breve disponibilizaremos um report executivo através do link deste incidente.

Agradecemos a compreensão.
Equipe Unico!
Posted Oct 22, 2025 - 23:13 GMT-03:00

Monitoring

Prezado Cliente,

Nosso time de tecnologia realizou as ações necessárias para restabelecer os disparos de webhooks.
Identificamos um movimento de melhora e normalização, seguiremos monitorando o comportamento dos nossos serviços.

Agradecemos a compreensão.
Equipe Unico!
Posted Oct 22, 2025 - 22:52 GMT-03:00

Identified

Prezado Cliente,

Nossa monitoração identificou uma instabilidade no serviço de disparo de webhook, gerando impacto aos produtos:

By Unico
IDUnico
IDPay

Nosso time de tecnologia está dedicado trabalhando nas ações corretivas para restabelecer o ambiente
Neste período, podemos enfrentar problemas de rate limit (429) em cenários de aplicações com hooks represados.

Agradecemos a compreensão.
Equipe Unico!
Posted Oct 22, 2025 - 22:34 GMT-03:00
This incident affected: IDPay (Notificações) and IDCloud | IDUnico (Notificações).