No dia 5 de Abril de 2024 identificamos um problema na plataforma IDSign, causando degradação na busca de envelopes dentro do Dashboard dos clientes. Ao investigar, identificamos que o servidor de banco de dados estava utilizando 100% de CPU, com degradação alta em tempo de resposta, e possibilidade de timeout, devido a quantidade alta disparada de busca por um de nossos clientes.
Para resolver o incidente, escalamos o ambiente para prover recursos para vazão dos processamentos além de adicionar uma regra temporária de limite de requisições do ofensor.
Afim de evitar cenários futuros, criamos um plano de ação que consiste na criação de um mecanismo de rate limit para evitar storm events, manter o scale up de recursos criado, melhorias no sistema de monitoração e observabilidade.