Modifier le seuil d'alarme (job)
Limites d'alarme statiques
Après avoir créé une tâche, il convient de définir des seuils appropriés pour représenter son état actuel en fonction des valeurs mesurées. La section des limites d'alarme est accessible directement en sélectionnant Modifier -> Limites d'alarme dans la liste déroulante d'une tâche ou en cliquant sur « OK, Modifier les limites d'alarme » dans la barre d'outils après avoir configuré les détails de la tâche :
Lors de la création d'une tâche, les limites d'alarme par défaut sont définies en fonction du type de tâche (voir la section Plugins disponibles). Par exemple, une nouvelle tâche Icmp a les limites d'alarme suivantes configurées par défaut :
Des limites d'alarme distinctes peuvent être définies pour chacun des 3 états : Warning, Minor ou Major.
Pour ajouter de nouveaux seuils, cliquez sur le bouton +. Si plusieurs limites d'alarme sont configurées pour un état spécifique, définissez leur corrélation en choisissant l'un des boutons radio « n'importe lequel » ou « tous ». Lorsque « tous » est sélectionné, tous les seuils doivent être atteints pour modifier l'état de la tâche. Cliquez sur le bouton - pour supprimer un seuil.
Ajout d'un seuil Minor supplémentaire à l'exemple ci-dessus :
Dans cet exemple, une alarme Minor n'est déclenchée que si le temps aller-retour de la vérification icmp a été supérieur à 200 ms pour les 3 dernières exécutions de tâche.
Exemples d'état d'alarme des tâches
Les graphiques d'historique d'état suivants montrent comment l'état d'un travail change pour différentes configurations de limites d'alarme et leurs compteurs. Les couleurs d'état suivantes sont utilisées :
Mêmes limites, compteurs croissants
Configurez le paramètre « pour x fois » afin de définir la fréquence à laquelle une valeur doit dépasser la limite pour qu'un travail passe à l'état « non OK ». Lorsque la première valeur est inférieure à la limite, le travail repasse à l'état « OK ».
Limites croissantes, compteurs croissants
Pour les valeurs croissantes, l'état change lorsque la valeur dépasse n fois la limite spécifique. Il en va de même pour les valeurs décroissantes.
Limites croissantes, compteurs décroissants
Pour les valeurs croissantes et décroissantes, l'état change lorsque la valeur dépasse n fois la limite spécifique. Si aucune condition n'est valide, la tâche repasse à l'état OK.
Maintenance dépendante de la valeur sur les tâches parsefile
Si un fichier d'entrée contient des informations sur l'état de maintenance d'un certain appareil ou objet, celles-ci peuvent être analysées par une tâche parsefile sur l'objet de l'appareil et, en fonction des résultats de la séquence d'analyse, la tâche parsefile peut être mise en état de maintenance ou non. Les tâches parsefile offrent un seuil de maintenance supplémentaire pour permettre de mettre la tâche en état de maintenance :
Une tâche en maintenance propage son état de maintenance vers le haut à son dispositif. L'objet dispositif lui-même propage ensuite l'état de maintenance vers le bas à toutes ses tâches.
Limites d'alarme dépendantes du temps
Par défaut, les seuils configurés sont toujours actifs, ce qui signifie qu'aucun calendrier spécifique n'est attribué. À l'aide d'un calendrier, il est possible de configurer des seuils dépendants du temps. Cela est utile si l'on souhaite établir différents niveaux de sensibilité pour les alarmes pendant ou en dehors des heures de fonctionnement ou pendant les fenêtres de maintenance habituelles. En configurant un calendrier pour les limites d'alarme d'une tâche, l'exécution de la tâche reste régie par son intervalle d'exécution, seuls son état et donc sa fonctionnalité d'alarme sont dépendants du temps.
Pour définir des limites d'alarme dépendantes du temps, un calendrier peut être attribué à chaque entrée de limite d'alarme. Tout d'abord, cliquez sur le bouton Parcourir le calendrier pour rechercher l'objet calendrier. Tous les objets calendrier existants se trouvent sous/root/Configurations/Schedule. Sélectionnez un ou plusieurs calendriers à l'aide des cases à cocher, puis cliquez sur Suivant :
Les calendriers sélectionnés sont désormais disponibles dans la liste déroulante de chacune des limites d'alarme :
Si un objet de planification référencé est supprimé, la référence pour le seuil passe à Toujours actif.
Si la définition d'un calendrier est modifiée, la limite d'alarme dans un graphique historique s'affiche en utilisant la nouvelle définition du calendrier. Cela s'applique même si les états correspondants ont été calculés à l'aide de la définition valide avant la modification. Les graphiques historiques ne reflètent pas l'historique des objets de configuration.
Limites d'alarme variables avec source d'horodatage externe
Les limites d'alarme statiques fonctionnent bien pour les systèmes qui ne nécessitent aucune interaction humaine. Dans les situations où l'horodatage d'un fichier n'est mis à jour que si une personne intervient, l'horodatage ne sera pas ajusté les jours fériés ou les week-ends. Un fichier qui est mis à jour régulièrement pendant les heures de bureau peut ne pas dater de plus de 24 heures, mais peut facilement dater de plus de 60 heures pendant un week-end, sans parler de ce qui se passe si un jour férié est adjacent à un week-end. Pour gérer de telles situations, une vérification variable de l'horodatage peut être utilisée.
Certains types de plugins (par exemple les plugins Execute ou Parsefile) prennent en charge la lecture de l'horodatage à partir d'une source externe.
L'horodatage peut être fourni sous forme de nombre absolu de secondes depuis 1.1.970 (temps UNIX) ou sous forme d'âge variable en secondes. Si la première méthode est utilisée, le nom de l'unité peut être défini avec le mot magique timestamp et le nombre plutôt illisible sera automatiquement transformé en une chaîne lisible par l'homme :
La configuration correspondante pour une limite d'alarme variable se présente comme suit :
Au lieu d'une limite statique de 1 h par exemple, une chaîne spéciale est saisie, telle que =1h+132. Le signe « = » indique une limite d'alarme variable. La chaîne suivante exprime l'âge souhaité et le +132 indique l'ID du calendrier à ajouter. Voir le chapitre Calendrier et calendrier d'exception pour plus d'informations sur la création d'un calendrier.
Limites d'alarme adaptatives
Les limites d'alarme peuvent également être définies en fonction de l'écart type (σ) ou d'un écart en pourcentage. Les valeurs mesurées par une tâche peuvent être prises en compte pour l'alarme. Cela peut être utile dans les cas où la valeur d'une tâche suit une tendance hebdomadaire plus ou moins régulière. Par exemple, l'utilisation du disque et du processeur sur un appareil qui exécute des tâches de sauvegarde locales chaque dimanche augmente pendant les sauvegardes et revient à des niveaux normaux une fois les sauvegardes terminées. Il serait souhaitable de reconnaître les cas où les valeurs d'utilisation du disque ou du processeur s'écartent de ce comportement normal, par exemple lorsque l'utilisation du disque augmente de manière significative alors qu'aucune fenêtre de sauvegarde n'est active. Un autre exemple d'utilisation des limites d'alarme adaptatives pourrait être un système de transaction en ligne qui a généralement une charge élevée pendant la journée et une charge très faible pendant la nuit ou le week-end. Les limites d'alarme adaptatives peuvent aider à détecter les anomalies dans ce comportement.
Dans les cas où une tendance plus ou moins linéaire est perceptible dans l'historique des valeurs, par exemple lorsque l'utilisation du disque augmente continuellement sur le volume de disque d'un serveur de fichiers, on peut souhaiter être averti un certain nombre de jours ou de semaines à l'avance, avant que le niveau d'utilisation du disque n'atteigne une certaine valeur. Cela permet d'acheter des disques supplémentaires pour augmenter le volume de stockage.
Les opérateurs σ et %, ainsi que les éléments Anticipated, peuvent être utilisés à ces fins :
Ne combinez pas les opérateurs de limite d'alarme σ ou % avec la fonction Anticipated (sur la même ligne de limite d'alarme). Utilisez-les sur des données qui ont un faible coefficient de corrélation mais qui présentent des tendances hebdomadaires régulières.
Ces limites d'alarme adaptatives peuvent également être combinées avec des limites d'alarme statiques.
Veuillez noter que SKOOR Engine aura besoin d'un certain temps pour calculer les données de prévision. Pendant ce temps, le message suivant s'affichera dans la section d'en-tête de l'interface utilisateur tant que l'onglet Adaptive (Adaptatif) est sélectionné :
Limites d'alarme avec valeurs anticipées
Passez à l'onglet Adaptive pour voir les valeurs historiques, la série chronologique moyenne calculée et les limites d'alarme correspondantes projetées dans l'avenir. L'exemple suivant montre l'onglet Adaptive avec les 14 derniers jours d'un historique de valeurs (ligne bleue) présentant une tendance presque parfaitement linéaire :
Le coefficient de corrélation calculé à partir des données est affiché en haut du graphique. La tendance des données réellement mesurées est projetée dans le futur pour les 25 prochaines semaines. Cela correspond à la ligne de tendance grise. La plage de temps dans le futur peut être choisie dans la deuxième liste déroulante.
Les limites d'alarme suivantes ont été définies pour l'exemple ci-dessus :
On peut voir qu'une semaine avant que la valeur 240 soit atteinte (comme prévu d'après la tendance actuelle), la tâche passera à l'état « Warning ». Il en va de même pour les états « Minor » et « Major ».
Écart type (σ) et écart en pourcentage
Pour les valeurs mesurées qui ne suivent pas une tendance linéaire aussi claire, c'est-à-dire qui présentent un coefficient de corrélation plus faible, les limites d'alarme σ ou % peuvent être définies :
Cet exemple montre un schéma hebdomadaire avec des valeurs nettement plus faibles le week-end. Dans de tels cas, une prédiction n'est pas possible car les valeurs mesurées sont réparties sur une large plage, mais l'onglet Adaptatif visualise cette dispersion et la combine avec les limites d'alarme actuellement configurées :
Le graphique de l'onglet Adaptatif peut apparaître de deux manières différentes en fonction de la corrélation calculée. Si le coefficient de corrélation r est supérieur à 0,3, le calcul dépendant de l'heure/du jour est utilisé et un graphique axé sur la tendance s'affiche, comme dans la section Limites d'alarme avec valeurs anticipées. Des coefficients de corrélation distincts sont alors calculés pour les données horaires et quotidiennes. S'il est inférieur, le graphique affiche une vue des limites d'alarme calculées sur la base des données historiques uniquement (sans prévision pour l'avenir), comme indiqué ci-dessus.
Si la valeur aléatoire est anormalement élevée le week-end suivant, par exemple aussi élevée que pendant les jours ouvrables normaux, cela déclencherait la limite d'alarme +2,5 σ et/ou +200 % et l'état de la tâche passerait à Minor ou même Major.
Le travail génère une alarme dès que les valeurs mesurées sont en dehors des valeurs prédites calculées à partir des données historiques. Concrètement, cela signifie que les données des 5 dernières semaines sont prises en compte pour le calcul des statistiques, avec une pondération réduite pour les semaines plus anciennes.
Les limites d'alarme peuvent également être consultées à partir de l'historique des valeurs de la tâche. Voir la section Afficher l'historique des valeurs pour plus de détails.
Les courbes individuelles du graphique ci-dessus peuvent être masquées en cliquant sur le bouton rond de la couleur correspondante. Par exemple, cliquer sur le bouton noir « Tendance » masque la ligne de tendance.
Sélection de la plage de temps
Sous le graphique, dans l'onglet Adaptatif, se trouve une chronologie de toute la plage de temps qui a été configurée dans la liste déroulante en haut du graphique (1 semaine dans cet exemple). Ici, vous pouvez spécifier la plage de temps à afficher dans le graphique principal en sélectionnant une plage de temps avec la souris :
La plage de temps sous le curseur est affichée sous forme de section agrandie ci-dessus. Elle peut être ajustée à chaque extrémité ou déplacée vers la gauche ou vers la droite.
Décalage pour les limites d'alarme en pourcentage
Parfois, la limite d'alarme en pourcentage est déclenchée même si les valeurs actuelles montrent une tendance très similaire à celle des semaines précédentes. C'est souvent le cas lorsque la pente de la courbe des valeurs est très forte. Dans de tels cas, les limites d'alarme en pourcentage peuvent être améliorées à l'aide d'un décalage statique numérique. L'exemple suivant montre une courbe de valeur (bleue) où les limites d'alarme ont été configurées pour les états Minor et Major, tous deux avec un seuil de -40 %, mais où la limite d'alarme Major a été configurée avec un décalage supplémentaire de 1000. Le décalage est configuré en l'ajoutant à la valeur en pourcentage avec un caractère +.
Le décalage repousse la courbe rouge du seuil Major de 1000 unités (dans ce cas : appels) vers le bas, de sorte que le seuil Major n'est pas facilement atteint lors de la montée abrupte de la valeur.
Limite pour les limites d'alarme en pourcentage
Il arrive parfois que l'on souhaite utiliser des seuils en pourcentage, mais que l'on veuille s'assurer qu'il existe toujours une limite maximale stricte à une certaine valeur. L'exemple suivant montre une courbe de valeur (bleue) où les limites d'alarme ont été configurées pour l'état Minor. Une limite positive et une limite négative en pourcentage avec chacune une limite stricte de 1000 et 3000 unités respectivement. Ces limites sont configurées en ajoutant la limite statique à la valeur en pourcentage avec un caractère >.
Cela signifie que la limite négative de 40 % est fixée à 0 si la limite calculée est inférieure à 1000 et que la limite positive de 60 % est fixée à un minimum de 3000 si la limite calculée est inférieure à 3000.
Calendrier pour les limites d'alarme adaptatives
Étant donné que les limites d'alarme adaptatives tentent de s'adapter aux charges quotidiennes, il peut être nécessaire de tenir compte d'anomalies connues telles que les jours fériés. Si un système a une charge élevée tous les vendredis, mais que le Vendredi saint,on suppose une charge très faible, voire nulle, il faut trouver un moyen d'apprendre au système que le Vendredi saint n'est pas un vendredi normal, mais qu'il se comportera comme un dimanche. Pour ce faire, un type de calendrier spécial peut être configuré. Voir la section Calendrier pour la prédiction pour plus d'informations.
Créer un calendrier pour la prévision :
Dans l'exemple suivant, le Vendredi saint et le lundi de Pâques, les limites d'alarme adaptatives calculées à partir des charges du dimanche précédent seront appliquées :
Associez maintenant ce programme aux tâches avec des limites d'alarme adaptatives en recherchant et en sélectionnant le programme à l'aide du menu déroulant Programme de prévision :
Il est également possible de configurer des modifications ponctuelles des limites d'alarme en sélectionnant Ponctuel au lieu de Annuel (jour férié) dans la liste déroulante Type de répétition :
Ces paramètres de calendrier peuvent également être combinés avec des calendriers actifs ordinaires au sein du même objet de calendrier. La figure suivante montre un exemple de calendrier actif qui définit les heures de bureau pour les alarmes et spécifie également que le Vendredi saint et le lundi de Pâques doivent être traités comme des dimanches pour le calcul des limites d'alarme adaptatives :
Correction des valeurs des tâches avec des mesures erronées ou manquantes
Il arrive parfois que les valeurs d'une tâche soient faussées par une mauvaise configuration des paramètres de la tâche (par exemple, une valeur incorrecte a été sélectionnée, ce qui a conduit à des valeurs extrêmement élevées ou basses) ou parce que la tâche n'était pas active et n'effectuait pas les mesures qu'elle aurait dû effectuer. Dans l'exemple suivant, une tâche n'effectuait plus de mesures correctes depuis le 6 octobre environ. Les valeurs incorrectes ont un impact négatif sur le calcul des statistiques :
Dans un tel cas, les données peuvent être invalidées. Dans l'exemple ci-dessus, la période comprise entre le 6 et le 14 octobre sera invalidée et ne sera plus prise en compte pour le calcul de la limite d'alarme adaptative.
La période requise peut être spécifiée dans le sélecteur de temps situé sous le graphique :
Deux boutons seront visibles sous le sélecteur, l'un pour invalider et l'autre pour valider les données dans la plage de temps sélectionnée :
Après avoir cliqué sur « Invalider » ou « Valider » et confirmé, le sélecteur de temps affiche les plages de temps correspondantes avec des marques rouges :
De plus, le bouton Recalculer les données de prévision devient visible. Vous devez cliquer sur ce bouton pour calculer les données de prévision avec les valeurs modifiées :
Cibles
Un type spécial de limite d'alarme disponible dans le SKOOR Engine est appelé « Cible ». Son objectif est d'afficher une ligne cible dans l'historique des valeurs d'un tableau de bord. Pour définir une valeur cible, cliquez sur l'onglet « Cibles » dans la fenêtre d'édition des limites d'alarme :
Cliquez sur le bouton + et choisissez l'une des valeurs disponibles dans le menu déroulant. Ensuite, vous pouvez définir la valeur souhaitée dans le champ correspondant, 5000 dans l'exemple ci-dessus. Le widget d'historique des valeurs suivant affiche la cible configurée sous forme de ligne pointillée, à partir du moment où elle a été configurée. Les cibles, comme les limites d'alarme, dépendent du temps. De cette façon, les historiques des valeurs peuvent toujours être affichés avec leurs limites d'alarme et leurs cibles à un moment donné.








































