Introdução à Gestão de Eventos

O Priax possui a funcionalidade de gestão de eventos que permite que fatos relevantes do ambiente sejam direcionados às Equipes e pessoas adequadas baseado em diversas características do evento que podem influenciar em quem deve ser notificado em cada situação.

Tipos de Eventos

O Priax possui a capacidade de detectar, classificar, filtrar e notificar os seguintes tipos de eventos do ambiente de TI:

Fluxo da Gestão de Eventos no Priax

O Priax realiza desde a detecção do evento, com agentes próprios ou integrado à ferramentas de terceiros capazes de capturar eventos nos recursos gerenciados, até a gestão pós-mortem destes eventos. Ao detectar eventos, o Priax realiza uma série de atividades até que sejam efetivamente notificados às equipes interessadas. As principais fases da gestão de eventos são:

Monitoramento Contínuo

Os sistemas de TI são monitorados constantemente por ferramentas que coletam dados de logs, métricas, transações e outros sinais emitidos por servidores, aplicativos, redes e dispositivos.

Detecção de Eventos Relevantes

Nem todos os eventos detectados são significativos. O processo de detecção inclui filtros para diferenciar eventos importantes (como erros críticos) de eventos rotineiros. Este processo inclui a filtragem de eventos de acordo com os parâmetros selecionados pelos usuários do Priax, além de mecanismos de detecção de falsos positivos e atenuação de pequenas oscilações normais do ambiente. Nesta fase também são realizadas os cálculos estatísticos e utilização de dados históricos para cálculo gatilhos de anormalidade com técnicas de machine learning.

Classificação do Evento

Eventos detectados são classificados por sua criticidade (information, warning, average, critical ou down) e priorizados com base no impacto potencial no ambiente. Também são calculados os SLAs com base nos serviços impactados.

Correlação de Eventos

O Priax utiliza IAmachine learning para correlacionar eventos aparentemente desconexos e identificar padrões, ajudando a prever problemas antes que ocorram. A correlação de eventos é o processo de identificar relações entre eventos aparentemente independentes para determinar uma causa raiz ou padrão subjacente. Em ambientes complexos, muitos eventos isolados podem ser sintomas do mesmo problema.

Técnicas de Correlacionamento:

Identificação de Impactos de Eventos

Dado um evento, devidamente correlacionado e identificado sua causa-raiz, o Priax realiza a análise de impactos, identificando, baseado nas dependências presentes na CMDB, a análise de quais os recursos, aplicações e serviços afetados pelo evento, permitindo. Isso permite que se tenha imediatamente uma análise da gravidade do evento e que se ajuste o SLA do evento baseado nos impactos gerados pelo evento.

Seleção de Responsáveis por Eventos

Com as informações de causa-raiz e impatos, é possível então definir os responsáveis por agir e mitigar as consequências do evento. Para isso o Priax possui regras que podem definir baseado em:

Notificações do Evento

O Priax possui aplicativo próprio para gestão dos eventos, capaz de receber notificações em celular ou em aplicativo Windows. No entanto o Priax também é capaz de notificar usando SMS, Whatsapp, Telegram, Microsoft Teams.

Post-Mortem do Evento

O processo de post-mortem de um evento é uma prática essencial para analisar incidentes críticos ocorridos em ambientes de TI, com o objetivo de entender o que aconteceu, identificar a causa raiz e implementar ações para evitar a recorrência. Ele é parte integrante de uma cultura de aprendizado contínuo e melhoria, especialmente em equipes que seguem metodologias como DevOps, SRE (Site Reliability Engineering), ou ITIL.

O Priax oferece ferramentas para realização completa do processo de Post-Mortem de um evento tais como: 

  1. Registro do Incidente

    • Documentar o incidente de forma detalhada, incluindo:
      • Data e hora do início e fim.
      • Serviços ou sistemas afetados.
      • Impacto no negócio ou nos usuários.
    • Integração com Ferramentas de ITSM (ServiceNow, Jira, Helix, OTRS) 
  2. Linha do Tempo do Incidente

    • Reconstituir uma timeline detalhada do incidente:
      • O que aconteceu e quando.
      • Quem fez o quê.
      • Como o incidente foi detectado.
    • Ferramentas de logs e monitoramento podem ajudar a criar uma visão cronológica.
  3. Identificação da Causa Raiz

    • Usar técnicas como:
      • 5 Porquês (5 Whys): Perguntar repetidamente "Por quê?" até chegar à causa raiz.
      • Análise de Árvore de Falhas: Diagramar as falhas e suas inter-relações.
    • Diferenciar entre causas imediatas (sintomas) e causas profundas.
  4. Avaliação da Resposta ao Incidente

    • Avaliar como a equipe respondeu:
      • O que funcionou bem (boas práticas)?
      • Onde houve falhas no processo ou demora na resolução?
    • Identificar gaps em alertas, playbooks ou habilidades da equipe.
  5. Ações Corretivas e Preventivas

    • Propor ações concretas para evitar a repetição do problema, como:
      • Melhorias em configurações ou infraestrutura.
      • Atualizações em playbooks ou runbooks.
      • Revisão de SLAs e práticas de monitoramento.
      • Treinamentos para a equipe.
  6. Compartilhamento do Relatório

    • Documentar o post-mortem em um relatório claro e objetivo, incluindo:
      • Descrição do incidente.
      • Linha do tempo.
      • Causa raiz.
      • Impacto.
      • Lições aprendidas.
      • Ações corretivas e preventivas.
    • Compartilhar com todas as partes interessadas para alinhamento.



Revision #5
Created 2024-08-16 17:38:13 UTC by Wagner B. Simonato
Updated 2024-09-10 23:57:57 UTC by Wagner B. Simonato