Hoje (18/07/2022) nos deparamos com uma indisponibilidade no STRATWs One. O problema teve início às 9:17 da manhã.
Como o time de desenvolvimento do produto estava reunido, instauramos imediatamente uma sala de guerra para analisar e resolver o problema. Constatamos imediatamente o problema de resposta da aplicação, verificamos a performance do serviço de validação do usuário, da rotina de consolidação, dos servidores de aplicação e, por fim, de Banco de Dados. Percebemos que os servidores de banco de dados estavam com um volume de processos acima do normal e que esse volume de processos havia crescido pouco depois das 9:15.
Ao aprofundarmos na pesquisa, identificamos que uma das procedures utilizadas no banco de dados (a que retorna o Farol Mensal) estava corrompida e exigia a "compilação" sempre que era executada. Essa operação consumia bastante recurso do servidor de banco de dados, empilhando as requisições de diferentes usuários e impactando no tempo de resposta.
Assim que conseguimos eliminar os processos em execução, excluir e recriar a procedure em questão, foi reestabelecido o funcionamento do sistema para os clientes (às 11:35 da manhã).
Depois de re-estabelecido o serviço, começamos a pesquisar sobre as possíveis vausas (o que motivou uma procedure que não é alterada desde 2019 a exigir compilação ao ser executada). Nos deparamos com o seguinte documento da Microsoft: https://docs.
Infelizmente nenhum dos 4 cenários apresentados como causa para a "compilação forçada" são aplicáveis ao ambiente do STRATWs. Desta forma, optamos por aumentar os recursos no servidor de banco de dados, ampliando assim o número de processadores alocados para atender ao banco de dados. Esperamos com isso evitar a sobrecarga no serviço enquando observamos se haverá ou não uma nova ocorrência desse problema.
Atenciosamente,
Siteware
Comentários
0 comentário
Artigo fechado para comentários.