Resumo
No dia 09 de abril de 2025, entre 9:25 e 9:44 (horário local), nossos sistemas enfrentaram uma degradação que impactou a disponibilidade de algumas funcionalidades para nossos clientes. O incidente foi causado por um bloqueio prolongado em uma tabela crítica do banco de dados durante a execução de uma atualização de sistema programada. Isso levou à saturação das conexões disponíveis no banco de dados, impedindo novas comunicações entre as aplicações e o banco. A equipe de engenharia identificou rapidamente o problema e restaurou a operação normal reiniciando o serviço de banco de dados afetado.
Impacto
Durante aproximadamente 19 minutos, das 9:25 às 9:44, clientes que utilizavam funcionalidades dependentes do serviço afetado experienciaram erros ou latência elevada. O problema central foi a indisponibilidade do banco de dados principal devido a um bloqueio em uma tabela essencial, exacerbado pelo esgotamento do limite de conexões.
Causa Raiz
A causa raiz do incidente foi uma combinação de dois fatores:
Resolução
Ao identificar o bloqueio e a saturação de conexões, a equipe de engenharia optou por reiniciar o servidor de banco de dados às 9:42. Essa ação interrompeu a operação de alteração da tabela que causava o bloqueio e liberou as conexões presas. Os serviços começaram a se recuperar imediatamente após a reinicialização, com a normalização completa ocorrendo por volta das 9:44.
Lições Aprendidas
Este incidente nos proporcionou aprendizados importantes para aprimorar a robustez e a resiliência de nossos sistemas:
Prevenção:
Detecção: Melhoraremos nosso monitoramento durante implantações para incluir a análise de logs de erro de forma mais proativa, além dos painéis de performance gerais.
Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.
Atenciosamente, Equipe Unico.