Instabilidade nos serviços de notificações via Webhook ID Cloud

Incident Report for unico

Resolved

Instabilidade nos serviços de notificações via Webhook ID Cloud

Resumo Executivo e Impacto:
Informamos que tivemos um incidente relacionado à latência no processamento de notificações via webhook. O impacto principal ocorreu em uma janela curta de tempo, entre 08:35 e 08:45 (BRT), período em que identificamos um atraso na entrega de status de transações. Reforçamos que não houve perda de dados, comprometimento da integridade das informações ou interrupção no nosso motor de liveness. Todas as transações processadas durante esse intervalo tiveram suas notificações devidamente entregues após a estabilização do serviço.

Causa Raiz e Resolução:
A causa raiz foi uma instabilidade em nossa infraestrutura. Nossas métricas internas confirmaram uma anomalia crítica entre 08:34 e 08:48, com o pico de latência concentrado na janela de 10 minutos mencionada anteriormente. Esta falha na camada de transporte de dados impediu que os webhooks fossem disparados em tempo real. Embora o processamento central estivesse operacional, o atraso na recepção desses status pode ter gerado a percepção de indisponibilidade sistêmica. Atuamos imediatamente na mitigação do gargalo e na vazão das filas represadas para normalizar o fluxo de comunicação.

Compromisso e Próximos Passos:
Nossa prioridade agora é o fortalecimento da resiliência técnica e a melhoria contínua da experiência de integração:

- Monitoramento: Estamos aprimorando nossas métricas de observabilidade para detectar anomalias em serviços de terceiros com maior granularidade e velocidade.
- Postmortem: Um relatório técnico detalhado (Postmortem) será compartilhado em breve, aprofundando as ações estruturais que tomaremos para evitar recorrências.

Recomendação de implementação para clientes: uso GetProcess como fallback:
Conforme detalhado em nossa documentação técnica [https://devcenter.unico.io/unico-idcloud/by-unico-integration/adittional-resources/webhooks], reforçamos a recomendação do uso de método de contingência (GetProcess) para cenários onde a implementação do cliente identifica instabilidade/degradação do envio do webhook. Isso garante que a operação continue recebendo status sem interrupções.

Pedimos desculpas por qualquer impacto causado e agradecemos a compreensão.
Equipe Unico.
Posted Mar 19, 2026 - 08:30 GMT-03:00