Identificamos duas intercorrências em nossa plataforma entre 21:00 e 21:08 no dia 06 de maio e entre 00:03 até 00:09 do dia 07 de maio (horário de Brasília), resultando em um atraso no processamento de filas assíncronas e no envio de notificações de saída (webhooks). Durante estes intervalos de 8 minutos e 6 minutos, o sistema apresentou latência na entrega de eventos, afetando a execução de fluxos em tempo real.
O impacto deu-se para uma parcela mínima de clientes. Reiteramos que não houve perda de dados; todas as notificações acumuladas foram processadas e entregues integralmente após a estabilização do componente. Clientes que não identificaram elevação no tempo de resposta em seus logs de integração durante este período específico não foram afetados.
Causa Raiz e Resolução
A causa raiz foi uma falha em um componente de infraestrutura responsável pela gestão de mensagens e eventos assíncronos. Esta instabilidade causou o reinício (restart) automático do serviço, interrompendo momentaneamente a vazão das filas.
A resolução ocorreu de forma automática através dos mecanismos de autorrecuperação da nossa camada de infraestrutura, que restabeleceu o serviço e permitiu o escoamento das tarefas represadas até que o processamento voltasse ao estado de normalidade.
Compromisso e Próximos Passos
Estamos comprometidos com a alta disponibilidade de nossos serviços. Como ação imediata, nossa equipe de SRE e Integrações iniciou a revisão das métricas de monitoramento e a criação de novos indicadores de nível de serviço (SLO) para garantir maior previsibilidade e robustez neste componente.
Um Postmortem detalhado com a análise técnica profunda e o plano de mitigação de longo prazo será compartilhado em breve. Pedimos desculpas profissionalmente pelo transtorno causado à sua operação.