Instabilidade no Portal do Cliente com impacto na listagem dos processos das capacidades do ID Cloud

Incident Report for unico

Postmortem

Postmortem: Degradação de Serviço em 09/04/2025

Resumo

No dia 09 de abril de 2025, entre 9:25 e 9:44 (horário local), nossos sistemas enfrentaram uma degradação que impactou a disponibilidade de algumas funcionalidades para nossos clientes. O incidente foi causado por um bloqueio prolongado em uma tabela crítica do banco de dados durante a execução de uma atualização de sistema programada. Isso levou à saturação das conexões disponíveis no banco de dados, impedindo novas comunicações entre as aplicações e o banco. A equipe de engenharia identificou rapidamente o problema e restaurou a operação normal reiniciando o serviço de banco de dados afetado.  

Impacto

Durante aproximadamente 19 minutos, das 9:25 às 9:44, clientes que utilizavam funcionalidades dependentes do serviço afetado experienciaram erros ou latência elevada. O problema central foi a indisponibilidade do banco de dados principal devido a um bloqueio em uma tabela essencial, exacerbado pelo esgotamento do limite de conexões.  

Causa Raiz

A causa raiz do incidente foi uma combinação de dois fatores:

  1. Bloqueio no Banco de Dados: Uma alteração no esquema do banco de dados (modificação de uma coluna em uma tabela principal) foi aplicada durante uma implantação de rotina. Essa operação específica exigiu uma varredura completa da tabela, resultando em um bloqueio (lock) de longa duração que impediu outras operações de leitura e escrita na tabela afetada.  
  2. Esgotamento de Conexões: A aplicação impactada não possuía uma configuração para limitar o número máximo de conexões simultâneas com o banco de dados. Com a tabela principal bloqueada, as requisições pendentes e as novas tentativas de conexão rapidamente consumiram todas as conexões disponíveis (atingindo o limite configurado no servidor de banco de dados), impedindo até mesmo o acesso administrativo para diagnóstico e intervenção.  

Resolução

Ao identificar o bloqueio e a saturação de conexões, a equipe de engenharia optou por reiniciar o servidor de banco de dados às 9:42. Essa ação interrompeu a operação de alteração da tabela que causava o bloqueio e liberou as conexões presas. Os serviços começaram a se recuperar imediatamente após a reinicialização, com a normalização completa ocorrendo por volta das 9:44.  

Lições Aprendidas

Este incidente nos proporcionou aprendizados importantes para aprimorar a robustez e a resiliência de nossos sistemas:

  • Mitigação: Reconhecemos a necessidade de agilizar as ações de mitigação em cenários semelhantes. A exploração de mecanismos para cancelar operações de banco de dados de longa duração de forma segura e rápida é fundamental.  
  • Prevenção:

    • Reforçamos a importância de revisar e aplicar configurações de limite de conexões em nossas aplicações para evitar o esgotamento de recursos do banco de dados.  
    • Aprimoraremos nossos processos de revisão e validação de alterações de esquema de banco de dados, incorporando verificações para identificar operações potencialmente arriscadas antes da implantação.  
    • Garantiremos a reserva de conexões de banco de dados para fins administrativos, assegurando a capacidade de intervir mesmo sob condições de alta carga ou saturação.  
  • Detecção: Melhoraremos nosso monitoramento durante implantações para incluir a análise de logs de erro de forma mais proativa, além dos painéis de performance gerais.

Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.

Atenciosamente, Equipe Unico.

Posted Apr 29, 2025 - 14:35 GMT-03:00

Resolved

Incidente resolvido.
Após monitoramento, validamos que a plataforma está estável e funcionando corretamente.
Posted Apr 09, 2025 - 10:04 GMT-03:00

Monitoring

A execução das ações necessárias foi concluída com sucesso, restabelecendo o ambiente.

Estamos iniciando a fase de operação assistida e monitorando a performance do ambiente.
Posted Apr 09, 2025 - 09:44 GMT-03:00

Identified

Identificamos a causa do problema no portal, gerando instabilidade na visualização e criação de processos. Nossa equipe de tecnologia está atuando para solução desde incidente.

Em breve traremos atualizações.
Posted Apr 09, 2025 - 09:35 GMT-03:00

Investigating

Nossa monitoração identificou um possível impacto em nosso Portal do Cliente (Portal B2B), podendo afetar a visualização dos processos criados nas capacidades do ID Cloud. Nosso time de tecnologia está trabalhando para identificar e resolver o problema.
Posted Apr 09, 2025 - 09:25 GMT-03:00
This incident affected: IDCloud | Portal Cliente (Portal Cliente).