Identificamos uma intercorrência em nossa plataforma entre 10:07am e 10:14am, e também entre 11:11am até 11:21am resultando em um atraso no processamento de filas assíncronas e no envio de notificações de saída (webhooks). Durante este intervalo, o sistema apresentou latência na entrega de eventos, afetando a execução de fluxos em tempo real.
O impacto deu-se para uma parcela mínima de clientes. Reiteramos que não houve perda de dados; todas as notificações acumuladas foram processadas e entregues integralmente após a estabilização do componente. Clientes que não identificaram elevação no tempo de resposta em seus logs de integração durante este período específico não foram afetados.
Causa Raiz e Resolução
A causa raiz foi uma falha em um componente de infraestrutura responsável pela gestão de mensagens e eventos assíncronos. Esta instabilidade causou o reinício (restart) automático do serviço, interrompendo momentaneamente a vazão das filas.
A resolução ocorreu de forma automática através dos mecanismos de autorrecuperação da nossa camada de infraestrutura, que restabeleceu o serviço e permitiu o escoamento das tarefas represadas até que o processamento voltasse ao estado de normalidade.
Compromisso e Próximos Passos Estamos comprometidos com a alta disponibilidade de nossos serviços. Como ação imediata, nossa equipe de SRE e Integrações iniciou a revisão das métricas de monitoramento e a criação de novos indicadores de nível de serviço (SLO) para garantir maior previsibilidade e robustez neste componente.
Um Postmortem detalhado com a análise técnica profunda e o plano de mitigação de longo prazo será compartilhado em breve.
Pedimos desculpas profissionalmente pelo transtorno causado à sua operação.