Degradação do tempo de resposta no serviço Análise do produto Unico Check
Incident Report for unico
Postmortem

[Degradação no componente Analise] - [Unico Check]

Alinhados aos nossos princípios de parceria e transparência com todos os nossos clientes, informamos, abaixo, mais detalhes referentes ao incidente ocorrido em 05/12/2022 15:03 e finalizado em 05/12/2022 15:45. Reforçamos que nossos esforços são para que a operação do seu sistema aconteça sempre com a máxima prontidão, performance e as tecnologias mais eficientes do mercado embasadas na Privacidade dos Dados e Segurança da Informação. A resolução foi concluída em 42m0s.

Descrição

Lentidão na análise de divergências.

Impacto

falha que está causando um elevado número de erros no componente análise do produto Unico Check, causando lentidão para alguns clientes.

Investigação da causa raiz

Por que a aplicação ficou indisponível?

Resp: foi identificado que o Web Server(IIS) que disponibiliza a aplicação ficou indisponível, causando o problema.

Por que o pool IIS ficou indisponível?

Resp: Foi identificado uma falha na porta do servidor, na qual é disponibilizada a aplicação. As chamadas internas estavam retornando timeout. Foi alterado para uma nova porta (8084) iniciando o processamento das requests.

Por que a porta 8083 ficou indisponível?

Resp: Não foi identificado nenhum problema relacionado a porta 8083. Realizamos todos os procedimentos de teste, mas para uma solução paliativa resolvemos por criar um novo web server na porta 8084. Ao configurar o novo pool as requests voltaram a ser processadas normalmente.

Por que o webserver ficou com lentidão?

Resp: Devido ao alto número de requests enviadas o limite máximo de conexões agrupadas ou o número máximo de conexões do pool foi atingido. Com isso, houve um enfileiramento de requests represadas no IIS, ocasionando lentidão para os clientes impactando o SLA.

Tivemos sorte

n/a

Tivemos azar

n/a

Passos para estabilização

Criar um novo web server de IIS na porta 8084, até a identificação do problema relacionado ao IIS antigo (8083). Criado um novo fallback na porta 8089 caso aconteça o mesmo problema.

Resolução

Migração para o nosso ambiente Kubernetes. O mesmo está sendo finalizado.

Posted Dec 09, 2022 - 10:00 GMT-03:00

Resolved
O ambiente encontra-se operacional e estável.
Devido ao enfileiramento é esperado que a fila de análises tenha seu SLA restabelecido até as 22h.

Lamentamos o ocorrido e reforçamos que nossos esforços são para que a operação do seu sistema aconteça sempre com a máxima prontidão.
Posted Dec 05, 2022 - 16:20 GMT-03:00
Monitoring
A correção foi aplicada, Nesse momento estamos dando início a operação assistida do ambiente.
Posted Dec 05, 2022 - 15:45 GMT-03:00
Identified
O problema foi identificado e o time técnico está aplicando as correções.
Posted Dec 05, 2022 - 15:30 GMT-03:00
Investigating
Identificamos uma falha que está causando um elevado número de erros no componente "análise" do produto Unico Check, causando lentidão para alguns clientes. Nosso time técnico está investigando o problema.

Retornaremos com mais informações em breve.
Posted Dec 05, 2022 - 15:03 GMT-03:00
This incident affected: Unico Check (Análise).