Instabilidade no Serviço de Integração By Unico

Incident Report for unico

Postmortem

Postmortem: Degradação de Serviço em 09/04/2025

Resumo

No dia 09 de abril de 2025, entre 9:25 e 9:44 (horário local), nossos sistemas enfrentaram uma degradação que impactou a disponibilidade de algumas funcionalidades para nossos clientes. O incidente foi causado por um bloqueio prolongado em uma tabela crítica do banco de dados durante a execução de uma atualização de sistema programada. Isso levou à saturação das conexões disponíveis no banco de dados, impedindo novas comunicações entre as aplicações e o banco. A equipe de engenharia identificou rapidamente o problema e restaurou a operação normal reiniciando o serviço de banco de dados afetado.  

Impacto

Durante aproximadamente 19 minutos, das 9:25 às 9:44, clientes que utilizavam funcionalidades dependentes do serviço afetado experienciaram erros ou latência elevada. O problema central foi a indisponibilidade do banco de dados principal devido a um bloqueio em uma tabela essencial, exacerbado pelo esgotamento do limite de conexões.  

Causa Raiz

A causa raiz do incidente foi uma combinação de dois fatores:

  1. Bloqueio no Banco de Dados: Uma alteração no esquema do banco de dados (modificação de uma coluna em uma tabela principal) foi aplicada durante uma implantação de rotina. Essa operação específica exigiu uma varredura completa da tabela, resultando em um bloqueio (lock) de longa duração que impediu outras operações de leitura e escrita na tabela afetada.  
  2. Esgotamento de Conexões: A aplicação impactada não possuía uma configuração para limitar o número máximo de conexões simultâneas com o banco de dados. Com a tabela principal bloqueada, as requisições pendentes e as novas tentativas de conexão rapidamente consumiram todas as conexões disponíveis (atingindo o limite configurado no servidor de banco de dados), impedindo até mesmo o acesso administrativo para diagnóstico e intervenção.  

Resolução

Ao identificar o bloqueio e a saturação de conexões, a equipe de engenharia optou por reiniciar o servidor de banco de dados às 9:42. Essa ação interrompeu a operação de alteração da tabela que causava o bloqueio e liberou as conexões presas. Os serviços começaram a se recuperar imediatamente após a reinicialização, com a normalização completa ocorrendo por volta das 9:44.  

Lições Aprendidas

Este incidente nos proporcionou aprendizados importantes para aprimorar a robustez e a resiliência de nossos sistemas:

  • Mitigação: Reconhecemos a necessidade de agilizar as ações de mitigação em cenários semelhantes. A exploração de mecanismos para cancelar operações de banco de dados de longa duração de forma segura e rápida é fundamental.  
  • Prevenção:

    • Reforçamos a importância de revisar e aplicar configurações de limite de conexões em nossas aplicações para evitar o esgotamento de recursos do banco de dados.  
    • Aprimoraremos nossos processos de revisão e validação de alterações de esquema de banco de dados, incorporando verificações para identificar operações potencialmente arriscadas antes da implantação.  
    • Garantiremos a reserva de conexões de banco de dados para fins administrativos, assegurando a capacidade de intervir mesmo sob condições de alta carga ou saturação.  
  • Detecção: Melhoraremos nosso monitoramento durante implantações para incluir a análise de logs de erro de forma mais proativa, além dos painéis de performance gerais.

Agradecemos a compreensão e estamos à disposição para esclarecer quaisquer dúvidas.

Atenciosamente, Equipe Unico.

Posted Apr 29, 2025 - 14:31 GMT-03:00

Resolved

Incidente resolvido.
Após monitoramento, validamos que o ambiente está operacional.
Posted Apr 09, 2025 - 10:04 GMT-03:00

Monitoring

As ações corretivas para o incidente da integração By Unico foram executadas. Nosso time de tecnologia está em monitoramento assistido acompanhando a performance do ambiente.
Posted Apr 09, 2025 - 09:44 GMT-03:00

Identified

Identificamos a causa da instabilidade na Integração By Unico gerando impacto nas seguintes jornadas:

Jornada de autenticação
Jornada de getselfie
Jornada de conjunto probatório

Nosso time de tecnologia está analisando o ambiente.
Posted Apr 09, 2025 - 09:35 GMT-03:00

Investigating

Nossa monitoração identificou um possível impacto na Integração By Unico que pode gerar instabilidade aos nossos clientes. Nosso time de tecnologia está analisando o ambiente.
Posted Apr 09, 2025 - 09:25 GMT-03:00
This incident affected: IDCloud - By Unico (IDCloud - By Unico (API), Fluxo de mensagens).