No dia 12 de Abril de 2024, a partir das 13:20 identificamos uma degradação no componente SDK que atende os produtos da família ID. Identificamos que estava relacionada com uma migração dos clientes para novos fluxos via SDK, quando ocorreu uma sobrecarga inesperada do banco de dados de produção devido à utilização de uma query não perfomática. Isso resultou em 100% de utilização da CPU do banco de dados, levando à indisponibilidade do backend e SDK em produção.
Para mitigar o problema, realizamos o resize do banco de dados, adicionando mais recursos de CPU, e reiniciamos o banco. Além disso, desativamos o ambiente de homologação (UAT) dos clientes para evitar impactos adicionais no ambiente produtivo. Essas ações foram cruciais para restaurar a estabilidade dos serviços afetados. O ambiente foi estabilizado por volta das 14:30.
Para evitar cenários futuros, nosso time criou um plano de ação que consiste em: