Modifier la limite d'alarme (job)

Limites d'alarme statique

Après avoir créé un travail, il convient de définir des seuils appropriés pour représenter son état actuel en fonction des valeurs mesurées. La section Limites d'alarme est accessible directement en sélectionnant Édition -> Limites d'alarme dans la liste déroulante d'une tâche ou en cliquant sur « OK , Modifier les limites d'alarme » dans la barre d'outils une fois les détails de la tâche configurés :

Lors de la création d'une tâche, les limites d'alarme par défaut sont définies en fonction du type de tâche (voir la section Plugins disponibles ). Par exemple, une nouvelle tâche Icmp a les limites d'alarme suivantes configurées par défaut :

Des limites d'alarme distinctes peuvent être définies pour chacun des 3 états Warning , Minor ou Major .

Pour ajouter de nouveaux seuils, cliquez sur le bouton + . Si plusieurs limites d'alarme sont configurées pour un état spécifique, définissez leur corrélation en choisissant l' un ou l' autre des boutons radio. Lorsque tout est sélectionné, tous les seuils doivent être remplis pour modifier l'état du travail. Cliquez sur le bouton - pour supprimer un seuil.

Ajout d'un seuil Minor supplémentaire à l'exemple ci-dessus :


Dans cet exemple, une alarme Minor n'est déclenchée que si le temps d'aller-retour de la vérification icmp a été supérieur à 200 ms pour les 3 dernières exécutions de travail.

Exemples d'état d'alarme de travail

Les exemples de tracés d'historique d'état suivants montrent comment l'état d'une tâche change pour différentes configurations de limites d'alarme et de leurs compteurs. Les couleurs d'état suivantes sont utilisées :

Mêmes limites, compteurs croissants

Configurez le paramètre for x times pour définir la fréquence à laquelle une valeur doit dépasser la limite, lorsqu'une tâche passe à l'état non OK particulier. Avec la première valeur inférieure à la limite, la tâche revient à OK .

Augmentation des limites, augmentation des compteurs

Pour des valeurs croissantes, l’état change lorsque la valeur dépasse n fois la limite particulière. La même chose se produit avec les valeurs décroissantes.

Limites croissantes , compteurs décroissants

Pour les valeurs croissantes et décroissantes, l’état change lorsque la valeur dépasse n fois la limite particulière. Si aucune condition n'est valide, le travail revient à OK .

Maintenance dépendante de la valeur sur les tâches d'analyse

Si un fichier d'entrée contient des informations sur l'état de maintenance d'un certain périphérique ou objet, celles-ci peuvent être analysées par une tâche de fichier d'analyse sur l'objet périphérique et, en fonction des résultats de la séquence d'analyse, la tâche de fichier d'analyse peut être mise en état de maintenance ou non. Les tâches Parsefile offrent le seuil de maintenance supplémentaire pour permettre de définir la tâche sous Maintenance :

Une tâche en cours de maintenance propage son état de maintenance vers le haut sur son appareil. L'objet périphérique lui-même propage ensuite l'état Maintenance vers le bas à toutes ses tâches.

Limites d'alarme en fonction du temps

Par défaut, les seuils configurés sont Toujours actifs , ce qui signifie qu'aucun planning spécifique n'est attribué. À l'aide d'un planning, des seuils dépendants du temps peuvent être configurés. Ceci est utile dans le cas où l'on souhaite établir différents niveaux de sensibilité pour les alarmes pendant ou en dehors des heures de fonctionnement ou pendant les fenêtres de maintenance habituelles. En configurant un planning pour les limites d'alarme d'un travail, l'exécution du travail est toujours régie par son intervalle d'exécution, seul son état et donc sa fonctionnalité d'alarme dépendent du temps.

Pour définir des limites d'alarme en fonction du temps, un calendrier peut être attribué à chaque entrée de limite d'alarme. Tout d’abord, cliquez sur le bouton Parcourir la planification pour rechercher l’objet de planification. Tous les objets de planification existants se trouvent sous /root/Configurations/Schedule . Sélectionnez un ou plusieurs plannings à l'aide des cases à cocher, puis cliquez sur Suivant :

Les horaires sélectionnés sont désormais disponibles dans la liste déroulante sur chacune des limites d'alarme :

Si un objet de planification référencé est supprimé, la référence du seuil devient Toujours actif .

Si la définition d'un programme est modifiée, la limite d'alarme dans un tracé historique est affichée en utilisant la nouvelle définition du programme. Ceci s'applique bien que les états correspondants aient été calculés en utilisant la définition valable avant la modification. Les tracés d'historique ne reflètent pas l'historique des objets de configuration.

Limites d'alarme variables avec source d'horodatage externe

Les limites d'alarme statique fonctionnent bien pour les systèmes sans interaction humaine. Dans les situations où un horodatage dans un fichier n'est mis à jour que si un humain agit, l'horodatage ne sera pas ajusté les jours fériés ou les week-ends. Un fichier qui est mis à jour régulièrement pendant les heures de bureau peut ne pas dater de plus de 24 heures, mais peut facilement dater de plus de 60 heures un week-end - sans parler de ce qui se passe si un jour férié est adjacent à un week-end. Pour gérer de telles situations, une vérification d'horodatage variable peut être utilisée.

Certains types de plugins (par exemple les plugins Execute ou Parsefile ) prennent en charge la lecture de l'horodatage à partir d'une source externe.

L'horodatage peut être fourni sous forme de nombre absolu de secondes depuis le 1.1.970 (heure d'époque UNIX) ou sous forme d'âge variable en secondes. Si la première méthode est utilisée, le nom de l'unité peut être défini avec le mot magique horodatage et le numéro plutôt illisible sera automatiquement transformé en une chaîne lisible par l'homme :

La configuration correspondante pour un seuil d'alarme variable ressemble à ceci :

Au lieu d'une limite statique de par exemple 1h, une chaîne spéciale est saisie comme =1h+132 . Le signe "=" marque une limite d'alarme variable. La chaîne suivante exprime l'âge souhaité et le +132 indique l'ID de l'horaire à ajouter. Voir le chapitre Planification et planification d'exceptions pour plus d'informations sur la façon de créer une planification.

Limites d'alarme adaptatives

Les limites d'alarme peuvent également être définies en fonction de l'écart type (σ) ou d'un écart en pourcentage. Les valeurs mesurées par un travail peuvent être considérées comme alarmantes. Cela peut être utile dans les cas où la valeur d'un emploi suit une tendance hebdomadaire plus ou moins régulière. Par exemple, l'utilisation du disque et du processeur sur un périphérique qui exécute des tâches de sauvegarde locales chaque dimanche augmente pendant les sauvegardes et se stabilise à des niveaux normaux une fois les sauvegardes terminées. Il convient de reconnaître les cas dans lesquels les valeurs d'utilisation du disque ou du processeur s'écartent de ce comportement normal, par exemple lorsque l'utilisation du disque augmente de manière significative lorsqu'aucune fenêtre de sauvegarde n'est active. Un autre exemple d'utilisation de limites d'alarme adaptatives pourrait être un système de transaction en ligne qui a généralement une charge élevée pendant la journée et une charge très faible pendant la nuit ou le week-end. Les limites d'alarme adaptatives peuvent aider à détecter les anomalies dans ce comportement.

Dans les cas où une tendance plus ou moins linéaire est perceptible dans un historique de valeurs, par exemple lorsque l'utilisation du disque augmente continuellement sur le volume disque d'un server de fichiers, on peut souhaiter être averti un certain nombre de jours ou de semaines à l'avance, avant que le disque ne soit mis à jour. le niveau d'utilisation atteint une certaine valeur. Juste pour pouvoir acheter des disques supplémentaires pour augmenter le volume de stockage.

Les operateurs σ et % , ainsi que les éléments anticipés , peuvent être utilisés aux fins ci-dessus :

 

Ne combinez pas les operateurs de limite d'alarme σ ou % avec la fonction Anticipée (sur la même ligne de limite d'alarme). Utilisez-les sur des données qui ont un faible coefficient de corrélation mais qui montrent des tendances hebdomadaires régulières.

Ces limites d'alarme adaptatives peuvent également être combinées avec des limites d'alarme statiques.

Veuillez noter que SKOOR Engine aura besoin d'un certain temps pour calculer les données de prédiction. Pendant ce temps, le message suivant s'affichera dans la section d'en-tête de l'interface utilisateur tant que l'onglet Adaptatif est sélectionné :

Limites d'alarme avec valeurs anticipées

Passez à l'onglet Adaptatif pour voir les valeurs historiques, la série temporelle moyenne calculée et les limites d'alarme correspondantes projetées dans le futur. L'exemple suivant montre l'onglet Adaptatif avec les 14 derniers jours d'un historique de valeurs (ligne bleue) avec une tendance presque parfaitement linéaire :

Le coefficient de corrélation calculé à partir des données est affiché en haut du graphique. La tendance des données réellement mesurées est projetée dans le futur pour les 25 prochaines semaines. Cela correspond à la ligne grise de tendance . La plage horaire dans le futur peut être choisie dans la deuxième liste déroulante.

Les limites d'alarme suivantes ont été définies pour l'exemple ci-dessus :

On peut voir qu'une semaine avant que la valeur 240 ne soit atteinte (comme prévu d'après la tendance actuelle), le travail passera à l'état Warning . Il en va de même pour les États Minor et Major .

Écart type (σ) et écart en pourcentage

Pour les valeurs mesurées qui ne suivent pas une tendance linéaire aussi claire, c'est-à-dire qui présentent un coefficient de corrélation plus faible, les limites d'alarme σ ou % peuvent être définies :

Cet exemple montre un modèle hebdomadaire avec des valeurs nettement inférieures le week-end. Dans de tels cas, une prédiction n'est pas possible car les valeurs mesurées sont réparties sur une large plage, mais l'onglet Adaptatif visualise cette diffusion et la combine avec les limites d'alarme actuellement configurées :

Le graphique de l'onglet Adaptatif peut apparaître de deux manières différentes en fonction de la corrélation calculée. Si le coefficient de corrélation r est supérieur à 0,3 , le calcul dépendant de l'heure/du jour est utilisé et un graphique axé sur la tendance s'affichera comme dans la section Limites d'alarme avec valeurs anticipées . Des coefficients de corrélation distincts sont ensuite calculés pour les données horaires et quotidiennes. S'il est inférieur, le graphique affiche une vue des limites d'alarme calculées sur la base des données historiques uniquement (sans aucune prévision dans le futur), comme indiqué ci-dessus.

Si la valeur aléatoire était anormalement élevée le week-end suivant, par exemple aussi élevée que les jours de semaine normaux, cela déclencherait soit la limite d'alarme de +2,5 σ et/ou +200 % et l'état du travail deviendrait Minor ou même Major .

Le travail génère une alarme dès que les valeurs mesurées sont en dehors des valeurs prédites calculées à partir des données historiques. En pratique, cela signifie que les 5 dernières semaines de données sont prises en compte pour le calcul des statistiques avec une pondération réduite vers les semaines antérieures.

Les limites d'alarme peuvent également être consultées à partir de l'historique des valeurs du travail. Voir la section Afficher l'historique des valeurs pour plus de détails.

Les courbes individuelles du graphique ci-dessus peuvent être masquées en cliquant sur le bouton rond avec la couleur correspondante. Par exemple, cliquer sur le bouton noir Tendance masque la ligne de tendance.

Sélection de la plage horaire

Sous le graphique dans l'onglet Adaptatif , vous trouverez une chronologie de toute la plage horaire qui a été configurée dans la liste déroulante en haut du graphique (1 semaine dans cet exemple). Ici, on peut spécifier la plage de temps à afficher dans le graphique principal en sélectionnant une plage de temps avec la souris :


La plage horaire située sous le curseur est affichée sous forme de section agrandie au-dessus. Il peut être ajusté à chaque extrémité ou déplacé vers la gauche ou la droite.

Décalage pour les limites d'alarme en pourcentage

Parfois, la limite d'alarme en pourcentage est déclenchée même si les valeurs actuelles montrent une tendance très similaire à celle des semaines précédentes. C’est souvent le cas lorsque la pente de la courbe de valeur est très élevée. Dans de tels cas, les limites d'alarme en pourcentage peuvent être améliorées avec un décalage statique numérique. L'exemple suivant montre une courbe de valeurs (bleue) dans laquelle les limites d'alarme ont été configurées pour les états Minor et Major , toutes deux avec un seuil de -40 %, mais la limite d'alarme Major a été configurée avec un décalage supplémentaire de 1 000. Le décalage est configuré en ajoutant à la valeur en pourcentage avec un caractère + .


Le décalage pousse la courbe de seuil Major rouge de 1 000 unités (dans ce cas : appels ) vers le bas, de sorte que le seuil Major n'est pas atteint facilement pendant le début abrupt de la valeur ascendante.

Limite pour les limites d'alarme en pourcentage

Parfois, on souhaite utiliser des seuils en pourcentage, mais on veut s'assurer qu'il existe toujours une limite maximale stricte à une certaine valeur. L'exemple suivant montre une courbe de valeur (bleue) où les limites d'alarme ont été configurées pour l'état Minor . Une limite de pourcentage positive et une limite négative, chacune étant une limite stricte de 1 000 et 3 000 unités respectivement. Ces limites sont configurées en ajoutant la limite statique à la valeur en pourcentage avec un caractère > .

      

Cela signifie que la limite négative de 40 % est fixée à 0 si la limite calculée est inférieure à 1 000 et la limite positive de 60 % est fixée à un minimum de 3 000 si la limite calculée est inférieure à 3 000, respectivement.

Calendrier des limites d'alarme adaptatives

Étant donné que les limites d'alarme adaptatives tentent d'adapter les charges en fonction du jour, il peut être nécessaire de tenir compte d'anomalies connues telles que les jours fériés. Si un système a une charge élevée tous les vendredis, mais que le Vendredi Saint, une charge très faible, voire aucune charge, est supposée , il doit y avoir un moyen d'apprendre au système que le Vendredi Saint n'est pas un vendredi normal mais qu'il se comportera comme un dimanche. . Pour y parvenir, un type particulier de planning peut être configuré. Voir la section Calendrier pour la prévision pour plus d'informations.

Créez un calendrier pour la prédiction :


Dans l'exemple suivant, le Vendredi Saint et le Lundi de Pâques, les limites d'alarme adaptatives calculées à partir des dernières charges du dimanche seront appliquées :


Liez maintenant cette planification à des tâches avec des limites d'alarme adaptatives en parcourant et en sélectionnant la planification à l'aide de la liste déroulante Planification de prévision :


On peut également configurer des modifications ponctuelles des limites d'alarme, en sélectionnant Une fois au lieu de Annuel (vacances) dans la liste déroulante Type de répétition :

Ces paramètres de planification peuvent également être combinés avec des planifications actives ordinaires au sein du même objet de planification. La figure suivante montre un exemple de programme actif qui définit les heures ouvrables pour les alarmes et spécifie également que le Vendredi Saint et le lundi de Pâques doivent être considérés comme des dimanches pour les calculs adaptatifs des limites d'alarme :

Correction des valeurs de travail avec des mesures erronées ou manquantes

Parfois, les valeurs d'un travail ont été entachées par une mauvaise configuration des paramètres du travail (par exemple, une mauvaise valeur a été sélectionnée, conduisant à des valeurs extrêmement élevées ou faibles) ou parce que le travail n'a pas été actif et n'a pas mesuré alors qu'il aurait dû l'être. Dans l'exemple suivant, un travail n'effectuait plus aucune mesure correcte depuis le 6 octobre environ. Les valeurs incorrectes impactent négativement le calcul des statistiques :

Dans un tel cas, les données peuvent être invalidées. Dans l'exemple ci-dessus, la plage horaire entre le 6 et le 14 octobre sera invalidée et ne sera plus prise en compte pour le calcul de la limite d'alarme adaptative.

La plage horaire requise peut être spécifiée dans le sélecteur de temps sous le graphique :

Deux boutons seront visibles sous le sélecteur, un pour invalider et un pour valider les données dans la plage horaire sélectionnée :

Après avoir cliqué et confirmé sur Invalider ou Valider , le sélecteur de temps affiche les plages horaires respectives avec des marques rouges :

;

De plus, le bouton Recalculer les données de prédiction devient visible. Il faut cliquer sur ce bouton pour calculer les données de prédiction avec les valeurs modifiées :

Cibles

Un type spécial de limite d'alarme disponible dans le SKOOR Engine est appelé Target . Son but est d'afficher une ligne cible dans un historique de valeurs d'un tableau de bord. Pour définir une valeur cible, cliquez sur l'onglet Cibles dans la fenêtre d'édition des limites d'alarme :

Cliquez sur le bouton + et choisissez l'une des valeurs disponibles dans la liste déroulante. Après cela, la valeur souhaitée peut être définie dans le champ correspondant, 5000 dans l'exemple ci-dessus. Le widget d'historique des valeurs suivant affiche la cible configurée sous forme de ligne pointillée, à partir du moment où elle a été configurée. Les cibles, comme les limites d’alarme, dépendent du temps. De cette façon, les historiques de valeurs peuvent toujours être affichés avec leurs limites d'alarme et leurs objectifs à un moment donné.