Gestão de Operações e Eventos (ITOM)
- Introdução à Gestão de Eventos
- Seleção e Customização de ICs e Indicadores a serem Observados
- Criação de Regras de Reação
- Recepção e Tratamento de Eventos
Introdução à Gestão de Eventos
O Priax possui a funcionalidade de gestão de eventos que permite que fatos relevantes do ambiente sejam direcionados às Equipes e pessoas adequadas baseado em diversas características do evento que podem influenciar em quem deve ser notificado em cada situação.
Tipos de Eventos
O Priax possui a capacidade de detectar, classificar, filtrar e notificar os seguintes tipos de eventos do ambiente de TI:
- Eventos de Disponibilidade: Recursos que entram em situação de indisponibilidade, deixando de cumprir seu papel no ambiente de TI.
- Eventos de Capacidade: Recursos que operam em regime precário, podendo representar ineficiência ou falhas eventuais devido à sobrecarga ou falta de recursos de hardware ou má configuração.
- Eventos de Mudança: Mudanças em configurações sem prévio conhecimento.
- Logs: Logs que representam a necessidade de atenção por parte de alguma equipe de operação.
Fluxo da Gestão de Eventos no Priax
O Priax realiza desde a detecção do evento, com agentes próprios ou integrado à ferramentas de terceiros capazes de capturar eventos nos recursos gerenciados, até a gestão pós-mortem destes eventos. Ao detectar eventos, o Priax realiza uma série de atividades até que sejam efetivamente notificados às equipes interessadas. As principais fases da gestão de eventos são:
Monitoramento Contínuo
Os sistemas de TI são monitorados constantemente por ferramentas que coletam dados de logs, métricas, transações e outros sinais emitidos por servidores, aplicativos, redes e dispositivos.
Detecção de Eventos Relevantes
Nem todos os eventos detectados são significativos. O processo de detecção inclui filtros para diferenciar eventos importantes (como erros críticos) de eventos rotineiros. Este processo inclui a filtragem de eventos de acordo com os parâmetros selecionados pelos usuários do Priax, além de mecanismos de detecção de falsos positivos e atenuação de pequenas oscilações normais do ambiente. Nesta fase também são realizadas os cálculos estatísticos e utilização de dados históricos para cálculo gatilhos de anormalidade com técnicas de machine learning.
Classificação do Evento
Eventos detectados são classificados por sua criticidade (information, warning, average, critical ou down) e priorizados com base no impacto potencial no ambiente. Também são calculados os SLAs com base nos serviços impactados.
Correlação de Eventos
O Priax utiliza IA e machine learning para correlacionar eventos aparentemente desconexos e identificar padrões, ajudando a prever problemas antes que ocorram. A correlação de eventos é o processo de identificar relações entre eventos aparentemente independentes para determinar uma causa raiz ou padrão subjacente. Em ambientes complexos, muitos eventos isolados podem ser sintomas do mesmo problema.
Técnicas de Correlacionamento:
- Coleta Centralizada: Eventos são reunidos em uma plataforma central (como um SIEM ou ferramenta de monitoramento).
- Análise Temporal: Eventos ocorrendo em curtos períodos de tempo podem ser correlacionados.
- Reconhecimento de Padrões: Ferramentas usam algoritmos (ou mesmo IA) para identificar padrões comuns que indicam incidentes recorrentes.
- Modelagem de Dependências: Mapas de dependências entre sistemas ajudam a correlacionar eventos com base na hierarquia ou comunicação entre componentes.
Identificação de Impactos de Eventos
Dado um evento, devidamente correlacionado e identificado sua causa-raiz, o Priax realiza a análise de impactos, identificando, baseado nas dependências presentes na CMDB, a análise de quais os recursos, aplicações e serviços afetados pelo evento, permitindo. Isso permite que se tenha imediatamente uma análise da gravidade do evento e que se ajuste o SLA do evento baseado nos impactos gerados pelo evento.
Seleção de Responsáveis por Eventos
Com as informações de causa-raiz e impatos, é possível então definir os responsáveis por agir e mitigar as consequências do evento. Para isso o Priax possui regras que podem definir baseado em:
- Horário de ocorrência do evento
- Causa raiz e tipos de causa raiz (tipo de IC e grupos de tipo de IC)
- Impactos
- Tags
- Host e Grupos de Host
Notificações do Evento
O Priax possui aplicativo próprio para gestão dos eventos, capaz de receber notificações em celular ou em aplicativo Windows. No entanto o Priax também é capaz de notificar usando SMS, Whatsapp, Telegram, Microsoft Teams.
Post-Mortem do Evento
O processo de post-mortem de um evento é uma prática essencial para analisar incidentes críticos ocorridos em ambientes de TI, com o objetivo de entender o que aconteceu, identificar a causa raiz e implementar ações para evitar a recorrência. Ele é parte integrante de uma cultura de aprendizado contínuo e melhoria, especialmente em equipes que seguem metodologias como DevOps, SRE (Site Reliability Engineering), ou ITIL.
O Priax oferece ferramentas para realização completa do processo de Post-Mortem de um evento tais como:
-
Registro do Incidente
- Documentar o incidente de forma detalhada, incluindo:
- Data e hora do início e fim.
- Serviços ou sistemas afetados.
- Impacto no negócio ou nos usuários.
- Integração com Ferramentas de ITSM (ServiceNow, Jira, Helix, OTRS)
- Documentar o incidente de forma detalhada, incluindo:
-
Linha do Tempo do Incidente
- Reconstituir uma timeline detalhada do incidente:
- O que aconteceu e quando.
- Quem fez o quê.
- Como o incidente foi detectado.
- Ferramentas de logs e monitoramento podem ajudar a criar uma visão cronológica.
- Reconstituir uma timeline detalhada do incidente:
-
Identificação da Causa Raiz
- Usar técnicas como:
- 5 Porquês (5 Whys): Perguntar repetidamente "Por quê?" até chegar à causa raiz.
- Análise de Árvore de Falhas: Diagramar as falhas e suas inter-relações.
- Diferenciar entre causas imediatas (sintomas) e causas profundas.
- Usar técnicas como:
-
Avaliação da Resposta ao Incidente
- Avaliar como a equipe respondeu:
- O que funcionou bem (boas práticas)?
- Onde houve falhas no processo ou demora na resolução?
- Identificar gaps em alertas, playbooks ou habilidades da equipe.
- Avaliar como a equipe respondeu:
-
Ações Corretivas e Preventivas
- Propor ações concretas para evitar a repetição do problema, como:
- Melhorias em configurações ou infraestrutura.
- Atualizações em playbooks ou runbooks.
- Revisão de SLAs e práticas de monitoramento.
- Treinamentos para a equipe.
- Propor ações concretas para evitar a repetição do problema, como:
-
Compartilhamento do Relatório
- Documentar o post-mortem em um relatório claro e objetivo, incluindo:
- Descrição do incidente.
- Linha do tempo.
- Causa raiz.
- Impacto.
- Lições aprendidas.
- Ações corretivas e preventivas.
- Compartilhar com todas as partes interessadas para alinhamento.
- Documentar o post-mortem em um relatório claro e objetivo, incluindo:
Seleção e Customização de ICs e Indicadores a serem Observados
O Priax, ao detectar um IC automaticamente habilita os indicadores que são selecionados como indicador padrão do IC. Porém, podemos customizar, habilitar ou desabilitar o monitoramento de qualquer indicador de qualquer IC, conforma a necessidade de cada situação.
Habilitando e desabilitando Indicadores
Para isso, na tela principal do Priax, podemos navegar na árvore de ICs, selecionar o item desejado e na aba Indicadores selecionar ou deselecionar os indicadores desejados.
Customização de Indicadores
Para customizar o indicador, pode-se clicar com o botão direito do mouse no IC desejado, selecionar Configuration\Monitoring. Na tela de configuração de indicadores, selecionar a aba Indicators e clicar em Configuration, logo depois selecionar o tipo de indicador Priax e novamente clicar em Configuration.
As opções de customização do indicador serão exibidas.
Ao passar o mouse em cada uma das opções, as instruções de preenchimento serão exibidas, com uma pequena documentação individual por atributo.
Habilitando o Cálculo de automático de Triggers (Linha Base)
O Priax suporta a geração de alertas baseado em cálculo automatizado de linha base. Para que os indicadores passem a gerar alertas sem a necessidade de explicitar os limites fixos você pode habilitar o cálculo de trigger baseado em histórico.
Para isso localize a opção Learn "Triggers based on History" na tela de configuração do indicador e habilite essa opção. Depois configure as opções conforme tela abaixo.
- Triggers Profile: Selecione se as triggers devem ser calculadas para limites superiores, inferiores ou para ambos. Quando um indicador cuja a normalidade fica abaixo dos valores que podem causar problemas, então selecione a opção Upper Limits. Para indicador cuja a normalidade se situa acima de valores que podem causar problemas, selecione Botton Limits. E para indicador cuja a normalidade não pode se afastar de uma média, selecione Upper and Botton Limits.
- Weekday Profile: Selecione True se você deseja ter um cálculo de trigger diferenciado para dia da semana.
- Time Profile: Selecione True se você deseja ter um cálculo de trigger diferenciado para cada horário do dia.
- Minimum Trigger Level: Selecione o nível mínimo de trigger que será criado para o indicador. Se você selecionar High, apenas um nível de trigger será calculado. Se você selecionar Average, serão criados dois níveis e se você selecionar Warning serão criados três níveis.
- Time Window: Selecione quanto tempo de dados serão considerados para criar as triggers, as opções são: 24 horas, 7 dias, 30 dias, 180 dias, 365 dias.
Criação de Regras de Reação
Recepção e Tratamento de Eventos
Acesso e Instalação ao Priax ITOM
Os eventos no Priax são recebitos e gerenciados no módulo Priax ITOM, que é uma aplicação Web integrada ao Priax, porém também possui interface através de aplicativo instalável em sistemas operacionais Android e IOS. A aplicação pode ser instalada também em Sistemas operacionais Windows e Linux através do navegador de sua preferência.
Para acessar o Priax ITOM através de seu navegador acesse: https://itom.app.priax.io.
Ao acessar, antes mesmo de fazer login, é apresentado na barra de endereços um ícone que permite a instalação da aplicação no sistema operacional. Durante o processo de instalação o usuário é questionado se deseja criar os ícones na barra de tarefas e na área de trabalho.
Em celulares, o procedimento é bastante parecido. porém a opção de instalação aparece no menu do navegador:
A instalação deverá criar os ícones da aplicação nos locais tradicionais do seu sistema operacional.
Tela inicial do Priax ITOM
Ao acessar a aplicação, serão exibidas as Equipes que seu usuário faz parte, com o respectivo quadro de atividades:
Cada aba da imagem acima representa uma equipe que pode receber Eventos. Cada equipe pode organizar seu trabalho criando estágios do gerenciamento dos eventos, no entanto a coluna Entrada e Concluído representam respectivamente o estado que onde serão criados os eventos e para onde serão movidos quando forem solucionados/encerrados.
Ao clicar em um evento, os detalhes sobre ele serão exibidos.
Gerenciamento de Eventos
Ao clicar em um evento a tela de detalhes de eventos é exibida, onde se pode ver informações detalhadas e gerenciar o evento.
- O item 1 destacado na imagem apresenta a causa raiz do evento, sendo que qualquer recurso ou indicador corelacionado, sempre terá sido causado por este elemento.
- O item 2, apresenta todos os recursos e respectivos indicadores nos quais foram detectados anormalidades, e que foram causados pela mesma causa raíz. Nesta área são apresentados também os indicadores da própria causa raíz.
- Os indicadores são apresentados em abas que representam o nível de gravidade que os indicadores atingiram, indicadores com o mesmo nível de gravidade detectados são agrupados na mesma aba.
- Na área 4, se pode ver mais detalhes do IC que causou o problema e navegar nos impactos gerados por ele, visualizando os indicadores que apresentam problemas nessas árvores de impacto e dependências.
- No item 5 pode-se visualizar o gráfico de cada indicador ao longo do tempo.
Análise de Impactos
No botão "Impacts" podemos ver os impactos de um evento:
Nesta tela é possível visualizar todos os indicadores eferados. Os recursos (ICs) que são afetados com o problema (mesmo que ainda não possuam indicadores em estado de alerta). Os ICs para os quais foram detectados indicadores que confirmam o impacto são pintados de vermelho e ao clicar neles pode-se ver os indicadores afetados. Quando o indicador de um IC pode ser causado pelo de outro, apenas um Evento é criado, função essa da fase de correlação de eventos.
Análise de Dependências
Da mesma forma que podemos ver os impactos de um evento, podemos ver também de quais outros recursos depende um IC que é a causa raiz de um evento. Nesta análise de causa dependências são exibidos ICs que estão em estado saudável e também ICs que podem estar sendo afetados por outros Eventos, porém que não foram correlacionados por se tratarem de eventos de outras naturezas. Essa análise pode ajudar a entender mais profundamente um problema e como corrigí-lo.
Visualização de Histórico de Indicadores
No item 5 da tela de visualização de detalhes do evento, ou diretamente nos detalhes do indicador na tela de análise de impactos e de dependências, pode-se visualizar o histórico de qualquer indicador relacionado a qualquer IC ou dos indicadores associados ao evento.
Nesta tela pode-se navegar no dado coletado, realizando zoom-in ou zoon-out em qualquer período de tempo, que também pode ser customizado no botão "Filters".