No dia 8 de janeiro de 2026, identificamos uma instabilidade temporária que afetou a disponibilidade de nossos serviços de avaliação de risco para operações no México. O incidente foi causado por uma falha em uma dependência externa, resultando em erros de resposta e picos de latência durante um curto intervalo de tempo.
O incidente teve uma duração total de 14 minutos, entre 14:13 e 14:27 (horário local). Durante este período:
Aproximadamente 1.300 requisições de clientes falharam ou não receberam resposta.
O impacto foi observado de forma generalizada nas integrações que dependem do serviço de predição.
A instabilidade foi originada por uma falha de hardware na infraestrutura de um provedor de nuvem que sustenta um de nossos parceiros de serviço. Especificamente, ocorreu uma degradação no serviço de banco de dados em memória devido a um problema no host físico subjacente, o que disparou um processo automático de recuperação de nó. Durante esse processo de transição, o serviço apresentou indisponibilidade pontual e latência elevada.
O serviço foi restabelecido automaticamente assim que o provedor de nuvem concluiu a substituição do nó afetado e a recuperação da infraestrutura de rede. Não foi necessária uma intervenção manual direta em nossos sistemas para a normalização das operações, que voltaram ao estado estável às 14:27.
Este evento reforçou a importância da resiliência em camadas diante de falhas de terceiros. As principais conclusões foram:
Aprimoramento de Mitigação: Identificamos a necessidade de ajustar os tempos de resposta para garantir que falhas externas não se propaguem de forma agressiva para o usuário final.
Resiliência de Integração: Revisamos a forma como tratamos erros de dependências críticas para garantir que, mesmo em casos de instabilidade externa, o sistema possa falhar de forma controlada ou oferecer respostas alternativas quando possível.
Alta Disponibilidade: A importância da configuração Multi-AZ para serviços críticos de infraestrutura para minimizar o tempo de inatividade durante falhas de hardware.
Estamos comprometidos com a estabilidade de nossos ambientes e atuaremos nas ações preventivas, mitigando impactos similares no futuro.
Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.