Entre 12:38 e 12:52 BRT em 30 de julho de 2025, tivemos uma latência em nosso serviço de captura e reaproveitamento de documentos, afetando a experiência de nossos clientes. O problema foi resolvido automaticamente assim que a dependência interna normalizou seu funcionamento.
Houve um aumento no tempo de resposta, com algumas requisições gerando latências em torno de 5 segundos, excedendo nosso SLO de 3 segundos. Embora a latência tenha sido temporária, ela impactou clientes que estavam processando documentos ativamente durante esse período.
A latência foi causada por uma dependência interna, responsável pela assinatura e criptografia de URLs, que se tornou temporariamente indisponível. A indisponibilidade da dependência interna impediu a autenticação em um serviço de criptografia externo, resultando em erros. A causa exata da indisponibilidade do serviço interno ainda está sob investigação.
O serviço foi normalizado sem intervenção manual. A degradação da latência cessou logo após o período de indisponibilidade da dependência interna.
Melhorar a Observabilidade e a Depuração: A investigação inicial foi dificultada por mensagens de erro genéricas e a falta de logs detalhados. Aprimorar as mensagens de erro nos logs facilitará a identificação e a resolução de problemas em tempo real.
Aprimorar a Resiliência do Serviço: A dependência de um único serviço de criptografia externo apresentou um ponto de falha. Avaliaremos o uso de bibliotecas de criptografia mais resilientes para mitigar a dependência de um serviço externo específico