Limites d'alarme statiques

Après avoir créé une tâche, il convient de définir des seuils appropriés pour représenter son état actuel en fonction des valeurs mesurées. La section des seuils d'alarme est accessible directement en sélectionnant Edit -> Alarm limits dans la liste déroulante d'un travail ou en cliquant sur "OK, Edit Alarm limits" dans la barre d'outils une fois que les détails du travail ont été configurés :

Lors de la création d'un travail, des limites d'alarme par défaut sont définies en fonction du type de travail (voir la section Plugins disponibles) ; par exemple, les limites d'alarme suivantes sont configurées par défaut pour un nouveau travail Icmp :

Des seuils d'alarme distincts peuvent être définis pour chacun des 3 états Warning, Minor ou Major.

Pour ajouter de nouveaux seuils, cliquez sur le bouton +. Si plusieurs seuils d'alarme sont configurés pour un état spécifique, définissez leur corrélation en choisissant l'une des cases d'option any ou all. Lorsque l'option tous est sélectionnée, tous les seuils doivent être atteints pour modifier l'état du travail. Cliquez sur le bouton - pour supprimer un seuil.

Ajout d'un seuil Minor supplémentaire à l'exemple ci-dessus :

Dans cet exemple, une alarme mineure n'est déclenchée que si le temps d'aller-retour de la vérification icmp a été supérieur à 200 ms au cours des trois dernières exécutions de la tâche.

Exemples d'état d'alarme de tâche

Les exemples suivants de tracés de l'historique des états montrent comment l'état d'un travail change pour différentes configurations des seuils d'alarme et de leurs compteurs. Les couleurs d'état suivantes sont utilisées :

Mêmes limites, augmentation des compteurs

Configurez le paramètre pour x fois afin de définir le nombre de fois qu'une valeur doit être supérieure à la limite, pour qu'un travail passe à l'état particulier "not OK". À la première valeur inférieure à la limite, le travail repasse à l'état OK.

Augmentation des limites, augmentation des compteurs

Pour les valeurs croissantes, l'état change lorsque la valeur est n fois supérieure à la limite particulière. Il en va de même pour les valeurs décroissantes.

Limitescroissantes, compteurs décroissants

Pour les valeurs croissantes et décroissantes, l'état change lorsque la valeur est n fois supérieure à la limite en question. Si aucune condition n'est valide, le travail revient à OK.

Maintenance en fonction de la valeur pour les travaux d'analyse de fichiers (parsefile)

Si un fichier d'entrée contient des informations sur l'état de maintenance d'un certain dispositif ou objet, il peut être analysé par une tâche parsefile sur l'objet dispositif et, en fonction des résultats de la séquence d'analyse, la tâche parsefile peut être placée dans l'état de maintenance ou non. Les tâches parsemées offrent un seuil de maintenance supplémentaire qui permet de placer la tâche en état de maintenance:

Un travail en état de maintenance propage son état de maintenance vers le haut jusqu'à son dispositif. L'objet périphérique lui-même propage ensuite l'état de maintenance vers le bas à tous ses travaux.

Limites d'alarme dépendantes du temps

Par défaut, les seuils configurés sont toujours actifs, ce qui signifie qu'aucun horaire spécifique n'est attribué. Il est possible de configurer des seuils en fonction du temps à l'aide d'un calendrier. Ceci est utile dans le cas où l'on souhaiterait établir différents niveaux de sensibilité pour les alarmes pendant ou en dehors des heures d'operateur ou pendant les fenêtres de maintenance habituelles. En configurant un calendrier pour les limites d'alarme d'un travail, l'exécution du travail est toujours régie par son intervalle d'exécution, seul son état et donc sa fonctionnalité d'alarme sont dépendants du temps.

Pour définir des limites d'alarme dépendantes du temps, une planification peut être attribuée à chaque entrée de limite d'alarme. Cliquez d'abord sur le bouton Parcourir la programmation pour rechercher l'objet de programmation. Tous les objets de planification existants se trouvent sous /root/Configurations/Scheduler. Sélectionnez une ou plusieurs programmations à l'aide des cases à cocher, puis cliquez sur Suivant :

Désormais, les horaires sélectionnés sont disponibles dans la liste déroulante sur chacune des limites d'alarme :

Si un objet horaire référencé est supprimé, la référence du seuil passe à Toujours actif.

Si la définition d'un horaire est modifiée, la limite d'alarme dans un tracé d'historique est affichée en utilisant la nouvelle définition de l'horaire. Cela s'applique même si les états correspondants ont été calculés à l'aide de la définition valable avant la modification. Les tracés historiques ne reflètent pas l'historique des objets de configuration.

Limites d'alarme variables avec source d'horodatage externe

Les limites d'alarme statiques fonctionnent bien pour les systèmes qui n'ont pas d'interaction humaine. Dans les cas où l'horodatage d'un fichier n'est mis à jour que si une personne intervient, l'horodatage ne sera pas ajusté les jours fériés ou les week-ends. Un fichier mis à jour régulièrement pendant les heures de bureau peut ne pas dater de plus de 24 heures, mais peut facilement dater de plus de 60 heures pendant un week-end - sans parler de ce qui se passe si un jour férié est adjacent à un week-end. Pour gérer de telles situations, il est possible d'utiliser une vérification de l'horodatage variable.

Certains types de plugins (par exemple les plugins Execute ou Parsefile) permettent de lire l'horodatage à partir d'une source externe.

L'horodatage peut être fourni sous la forme d'un nombre absolu de secondes depuis 1.1.970 (heure d'origine UNIX) ou sous la forme d'un âge variable en secondes. Si la première méthode est utilisée, le nom de l'unité peut être défini avec le mot magique " timestamp" et le nombre plutôt illisible sera automatiquement transformé en une chaîne lisible par l'homme :

La configuration correspondante pour une limite d'alarme variable se présente comme suit :

Au lieu d'une limite statique de 1 heure, par exemple, une chaîne spéciale est saisie comme =1h+132. Le signe "=" indique une limite d'alarme variable. La chaîne suivante exprime l'âge souhaité et le +132 indique l'ID du programme à ajouter. Voir le chapitre Programme et programme d'exception pour plus d'informations sur la création d'un programme.

Limites d'alarme adaptatives

Les limites d'alarme peuvent également être définies sur la base de l'écart type (σ) ou d'un pourcentage d'écart. Les valeurs mesurées par un travail peuvent être prises en compte pour l'alarme. Cela peut être utile dans les cas où la valeur d'un travail suit une tendance hebdomadaire plus ou moins régulière. Par exemple, l'utilisation du disque et de l'unité centrale sur un appareil qui exécute des tâches de sauvegarde locale tous les dimanches augmente pendant les sauvegardes et revient à des niveaux normaux une fois les sauvegardes terminées. On aimerait reconnaître les cas où les valeurs d'utilisation du disque ou de l'unité centrale s'écartent de ce comportement normal, par exemple lorsque l'utilisation du disque augmente de manière significative alors qu'aucune fenêtre de sauvegarde n'est active. Un autre exemple d'utilisation de limites d'alarme adaptatives pourrait être un système de transaction en ligne qui a généralement une charge élevée pendant la journée et une charge très faible pendant la nuit ou le week-end. Les limites d'alarme adaptatives peuvent aider à détecter des anomalies dans ce comportement.

Dans les cas où une tendance plus ou moins linéaire est perceptible dans l'historique d'une valeur, par exemple lorsque l'utilisation du disque augmente continuellement sur le volume du disque d'un serveur de fichiers, on peut souhaiter être averti un certain nombre de jours ou de semaines à l'avance, avant que le niveau d'utilisation du disque n'atteigne une certaine valeur. On peut ainsi acheter des disques supplémentaires pour augmenter le volume de stockage.

Les opérateurs σ et %, ainsi que les éléments Anticipé, peuvent être utilisés à ces fins :

Ne combinez pas les opérateurs de limite d'alarme σ ou % avec la fonction Anticipé (sur la même ligne de limite d'alarme). Utilisez-les sur des données dont le coefficient de corrélation est faible mais qui présentent des tendances hebdomadaires régulières.

Ces limites d'alarme adaptatives peuvent également être combinées avec des limites d'alarme statiques.

Veuillez noter que SKOOR Engine aura besoin d'un certain temps pour calculer les données de prédiction. Pendant ce temps, il affichera le message suivant dans la section d'en-tête de l'interface utilisateur tant que l'onglet Adaptatif est sélectionné :

Limites d'alarme avec valeurs anticipées

Passez à l'onglet Adaptatif pour voir les valeurs historiques, la série temporelle moyenne calculée et les limites d'alarme correspondantes projetées dans l'avenir. L'exemple suivant montre l'onglet Adaptatif avec les 14 derniers jours d'un historique de valeurs (ligne bleue) avec une tendance presque parfaitement linéaire :

Le coefficient de corrélation calculé à partir des données est indiqué en haut du graphique. La tendance des données effectivement mesurées est projetée dans le futur pour les 25 prochaines semaines. Cela correspond à la ligne de tendance grise. L'intervalle de temps dans le futur peut être choisi dans la deuxième liste déroulante.

Les limites d'alarme suivantes ont été définies pour l'exemple ci-dessus :

On peut voir qu'une semaine avant que la valeur 240 ne soit atteinte (comme prévu d'après la tendance actuelle), le travail passera à l'état d'Avertissement. Il en va de même pour les états Minor et Major.

Écart-type (σ) et écart en pourcentage

Pour les valeurs mesurées qui ne suivent pas une tendance linéaire aussi claire, c'est-à-dire qui présentent un coefficient de corrélation plus faible, les limites d'alarme σ ou % peuvent être définies :

Cet exemple montre une tendance hebdomadaire avec des valeurs nettement inférieures le week-end. Dans de tels cas, une prédiction n'est pas possible car les valeurs mesurées sont réparties sur une large plage, mais l'onglet Adaptive visualise cette dispersion et la combine avec les limites d'alarme actuellement configurées :

Le graphique de l'onglet Adaptation peut apparaître de deux manières différentes en fonction de la corrélation calculée. Si le coefficient de corrélation r est supérieur à 0,3, le calcul en fonction de l'heure/du jour est utilisé et un graphique axé sur la tendance s'affiche comme dans la section Limites d'alarme avec valeurs anticipées. Des coefficients de corrélation distincts sont alors calculés pour les données horaires et journalières. S'il est inférieur, le graphique affiche une vue des limites d'alarme calculées sur la base des données historiques uniquement (sans prédiction dans le futur), comme indiqué ci-dessus.

Si la valeur de Minor est anormalement élevée le week-end suivant, c'est-à-dire aussi élevée que les jours de semaine normaux, cela déclenchera la limite d'alarme de +2,5 σ et/ou de +200 % et l'état de la tâche deviendra Mineur ou même Majeur.

Le job génère une alarme dès que les valeurs mesurées se situent en dehors des valeurs prédites calculées à partir des données historiques. En pratique, cela signifie que les 5 dernières semaines de données sont prises en compte pour le calcul des statistiques, avec une pondération réduite pour les semaines plus anciennes.

Les limites d'alarme peuvent également être visualisées à partir de l'historique des valeurs de la tâche. Voir la section Afficher l'historique des valeurs pour plus de détails.

Les courbes individuelles du graphique ci-dessus peuvent être masquées en cliquant sur le bouton rond de la couleur correspondante. Par exemple, en cliquant sur le bouton noir Trend, la ligne de tendance est masquée.

Sélection de l'intervalle de temps

Sous le graphique, dans l'onglet Adaptation, il y a une ligne de temps de l'ensemble de la plage de temps qui a été configurée dans la liste déroulante en haut du graphique (1 semaine dans cet exemple). Ici, il est possible de spécifier l'intervalle de temps à afficher dans le graphique principal en sélectionnant un intervalle de temps à l'aide de la souris :

La plage de temps située sous le curseur est affichée sous la forme d'une section zommée en haut. Elle peut être ajustée à chaque extrémité ou déplacée vers la gauche ou la droite.

Décalage des seuils d'alarme en pourcentage

Il arrive que le seuil d'alarme en pourcentage soit déclenché même si les valeurs actuelles affichent une tendance très similaire à celle des semaines précédentes. C'est souvent le cas lorsque la pente de la courbe des valeurs est très élevée. Dans ce cas, les limites d'alarme en pourcentage peuvent être renforcées par un décalage numérique statique. L'exemple suivant montre une courbe de valeur (bleue) où les limites d'alarme ont été configurées pour les états Minor et Major, tous deux avec un seuil de -40%, mais où la limite d'alarme Major a été configurée avec un décalage supplémentaire de 1000. Le décalage est configuré en l'ajoutant à la valeur en pourcentage avec un caractère +.

Le décalage pousse la courbe rouge du seuil Major de 1000 unités (dans ce cas : appels) vers le bas, de sorte que le seuil Major n'est pas atteint facilement pendant le début abrupt de la valeur croissante.

Limite pour les seuils d'alarme en pourcentage

Il arrive que l'on souhaite utiliser des seuils en pourcentage, mais que l'on veuille s'assurer qu'il existe toujours une limite maximale stricte à une certaine valeur. L'exemple suivant montre une courbe de valeur (bleue) où des limites d'alarme ont été configurées pour l'état Minor. Une limite positive et une limite négative en pourcentage avec chacune une limite dure de 1000 et 3000 unités respectivement. Ces limites sont configurées en ajoutant la limite statique à la valeur en pourcentage avec le caractère >.

Cela signifie que la limite négative de 40 % est fixée à 0 si la limite calculée est inférieure à 1000 et que la limite positive de 60 % est fixée à un minimum de 3000 si la limite calculée est inférieure à 3000, respectivement.

Scheduler pour les seuils d'alarme adaptatifs

Étant donné que les seuils d'alarme adaptatifs tentent d'adapter les charges en fonction du jour, il peut être nécessaire de tenir compte d'anomalies connues telles que les jours fériés. Si un système a une charge élevée tous les vendredis, mais que le vendredi saint, lacharge est très faible, voire nulle, il faut trouver un moyen d'apprendre au système que le vendredi saint n'est pas un vendredi normal, mais qu'il se comportera comme un dimanche. Pour ce faire, il est possible de configurer un type spécial de calendrier. Pour plus d'informations, voir la section Scheduler pour la prédiction.

Créez une programmation pour la prédiction :

Dans l'exemple suivant, le vendredi saint et le lundi de Pâques, les limites d'alarme adaptatives calculées à partir des charges du dernier dimanche seront appliquées :

Liez maintenant cette planification aux travaux avec des limites d'alarme adaptatives en parcourant et en sélectionnant la planification à l'aide du menu déroulant Planification pour la prédiction:

Il est également possible de configurer des changements ponctuels des limites d'alarme en sélectionnant ponctuel au lieu d'annuel (vacances) dans la liste déroulante Type de répétition:

Ces paramètres de programmation peuvent également être combinés avec des programmations actives ordinaires dans le même objet de programmation. La figure suivante montre un exemple d'horaire actif qui définit les heures d'ouverture pour les alarmes et spécifie également que le vendredi saint et le lundi de Pâques doivent être considérés comme des dimanches pour le calcul des limites d'alarmes adaptatives :

Correction des valeurs d'un travail avec des mesures erronées ou manquantes

Il arrive que les valeurs d'une tâche soient faussées par une mauvaise configuration des paramètres de la tâche (par exemple, une valeur erronée a été sélectionnée, ce qui a entraîné des valeurs extrêmement élevées ou basses) ou parce que la tâche n'a pas été active et n'a pas effectué de mesures au moment où elle aurait dû le faire. Dans l'exemple suivant, une tâche n'a plus effectué de mesures correctes depuis le 6 octobre environ. Les valeurs incorrectes ont un impact négatif sur le calcul des statistiques :

Dans l'exemple ci-dessus, la période comprise entre le 6 et le 14 octobre sera invalidée et ne sera plus prise en compte pour le calcul de la limite d'alarme adaptative.

La plage de temps requise peut être spécifiée dans le sélecteur de temps situé sous le graphique :

Deux boutons seront visibles sous le sélecteur, l'un pour invalider et l'autre pour valider les données dans la plage de temps sélectionnée :

Après avoir cliqué sur Invalider ou Valider et confirmé, le sélecteur de temps affiche les plages de temps respectives avec des marques rouges :

Le boutonRecalculer les données de prédiction devient également visible. Il faut cliquer sur ce bouton pour calculer les données de prédiction avec les valeurs modifiées :

Cibles

Un type spécial de limite d'alarme disponible dans SKOOR Engine est appelé Cible. Il permet d'afficher une ligne cible dans l'historique des valeurs d'un tableau de bord. Pour définir une valeur cible, cliquez sur l'onglet Cibles dans la fenêtre d'édition des limites d'alarme :

Cliquez sur le bouton + et choisissez l'une des valeurs disponibles dans la liste déroulante. Ensuite, la valeur souhaitée peut être définie dans le champ correspondant, 5000 dans l'exemple ci-dessus. Le widget d'historique des valeurs suivant montre la cible configurée en pointillés, à partir du moment où elle a été configurée. Les cibles, comme les limites d'alarme, dépendent du temps. Ainsi, les historiques de valeurs peuvent toujours être affichés avec les limites d'alarme et les objectifs qu'ils avaient à un moment donné.

Documentation

Modifier le seuil d'alarme (job)