No dia 02 de Fevereiro de 2024 a partir das 11h nosso time identificou uma alta carga de processo no Sign, onde a aplicação começou a enfrentar problemas de processamento afetando assinatura de documentos que estavam sendo enviadas de forma sincrona, causando timeout exclusivamente para os clientes do produto Auto.
Ao investigar, detectamos o processamento de grandes lotes enviados por clientes, gerando degradação de alguns componentes do sign, fazendo com que chamadas sincronas (APIs REST e gRPC) não fosse concluídas, levando ao timeout e impacto a cliente.
Para mitigar de imediato alteramos o tempo de timeout do produto Auto para reduzir falhas de timeout.
Para evitar cenários futuros, realizamos um plano de ação que consistiu em maior investigação da causa da degradação, gerando uma correção na tratativa de determinados cenários da aplicação e melhorias no sistema de monitoração e observabilidade.