Resolved -
Resumo Executivo Pós Incidente
Este incidente resultou em alta latência e erros intermitentes na funcionalidade de visualização de detalhes de processos, afetando a experiência de uso de uma parcela de nossos clientes.
A instabilidade foi detectada via monitoramento automático, que apontou uma degradação severa na performance das consultas ao banco de dados. Durante o período de ocorrência entre 15h22 e 16h15, os usuários enfrentaram lentidão significativa ou falhas ao tentar acessar informações específicas em nossa plataforma, embora as demais funcionalidades tenham permanecido operacionais.
Causa Raiz e Resolução:
A investigação identificou que a causa raiz foi a ativação de uma nova configuração de funcionalidade (feature flag) para um cenário de alto volume de dados. Esta configuração acionou uma consulta ao banco de dados que não utilizava os filtros de partição adequados, forçando o sistema a realizar varreduras completas em todas as tabelas a cada requisição, o que sobrecarregou a memória das réplicas de leitura. A situação foi mitigada através do redirecionamento do tráfego para réplicas secundárias e, definitivamente, resolvida com a desativação da configuração ofensora. O serviço foi totalmente estabilizado e o desempenho das consultas normalizado após a correção da lógica de busca.
Jan 26, 17:43 GMT-03:00
Monitoring -
Incidente sendo monitorado em fase de normalização
Resumo e Impacto: Informamos que o acesso à visualização de detalhes de processos passou por uma breve instabilidade, resultando em respostas mais lentas do que o habitual para alguns usuários.
Nossa equipe identificou o comportamento rapidamente e trabalhou para restabelecer a fluidez da plataforma.
Desde as 16:15, o sistema opera com estabilidade e o desempenho já retornou aos padrões de normalidade, garantindo uma experiência de uso adequada a todos os nossos clientes.
Causa e Resolução: A oscilação ocorreu devido à implementação de uma atualização que demandou um esforço de processamento acima do esperado em nossa base de dados.
Como medida imediata, pausamos a nova função e ajustamos a distribuição de carga entre nossos servidores para aliviar o sistema. Com essas ações, a navegação foi normalizada.
Seguimos monitorando o ambiente para assegurar a continuidade do serviço e a melhor performance em todas as funcionalidades.
Jan 26, 16:56 GMT-03:00
Update -
Atualização do Incidente:
Identificamos uma sobrecarga na camada de dados que está causando latência e erros intermitentes nas funcionalidades de detalhes dos processos.
Como medida imediata, redirecionamos o tráfego para uma infraestrutura de banco de dados secundária e reiniciamos os serviços afetados.
O sistema ainda apresenta sinais de instabilidade e nossa engenharia segue em análise de causas e medidas corretivas.
Voltaremos em breve com atualizações.
Jan 26, 16:19 GMT-03:00
Identified -
Em investigação:
Nossa equipe de monitoramento identificou um aumento de latência a com impacto em todas as capacidades IDcloud.
Em breve voltamos com mais atualizações.
Atenciosamente, Equipe Unico
Jan 26, 15:45 GMT-03:00