Alarm Limit bearbeiten (Job)

Statische Alarm Limits

Nach dem Erstellen eines Auftrags sollten geeignete Schwellenwerte festgelegt werden, um den aktuellen Status des Auftrags in Abhängigkeit von den gemessenen Werten darzustellen. Der Abschnitt „Alarm Limits“ kann direkt über „Bearbeiten -> Alarm Limits“ in der Dropdown-Liste eines Auftrags oder durch Klicken auf „OK, Alarm Limits bearbeiten“ in der Symbolleiste aufgerufen werden, nachdem die Details des Auftrags konfiguriert wurden:

Bei der Erstellung eines Auftrags werden je nach Auftragstyp Standard-Alarm Limite festgelegt (siehe Abschnitt „Verfügbare Plugins“). Ein neuer Icmp-Auftrag verfügt beispielsweise standardmäßig über die folgenden Alarm Limite:

Für jeden der drei Zustände „Warning“, „Minor“ oder „Major“ können separate Alarm Limits festgelegt werden.

Um neue Schwellenwerte hinzuzufügen, klicken Sie auf die Schaltfläche „+“. Wenn für einen bestimmten Status mehr als ein Alarm Limit konfiguriert ist, legen Sie deren Korrelation fest, indem Sie entweder das Optionsfeld „Beliebig“ oder „Alle“ auswählen. Wenn „Alle“ ausgewählt ist, müssen alle Schwellenwerte erfüllt sein, um den Status des Jobs zu ändern. Klicken Sie auf die Schaltfläche „-“, um ein Alarm Limit zu entfernen.

Hinzufügen eines zusätzlichen Schwellenwerts „Minor“ zum obigen Beispiel:


In diesem Beispiel wird ein Minor-Alarm nur ausgelöst, wenn die Roundtrip-Zeit der ICMP-Prüfung bei den letzten drei Jobausführungen über 200 ms lag.

Beispiele für den Alarmstatus von Jobs

Die folgenden Beispielgrafiken zum Statusverlauf zeigen, wie sich der Status eines Jobs bei verschiedenen Konfigurationen von Alarm Limits und deren Zählern ändert. Es werden die folgenden Statusfarben verwendet:

Gleiche Grenzwerte, steigende Zähler

Konfigurieren Sie den Parameter „x-mal“, um festzulegen, wie oft ein Wert über dem Grenzwert liegen muss, damit ein Job in den Status „nicht OK“ wechselt. Sobald der erste Wert unter den Grenzwert fällt, wechselt der Job wieder in den Status „OK“.

Steigende Grenzwerte, steigende Zähler

Bei steigenden Werten ändert sich der Status, wenn der Wert n-mal über dem bestimmten Grenzwert liegt. Das Gleiche gilt für fallende Werte.

Steigende Grenzwerte, abnehmende Zähler

Bei steigenden und fallenden Werten ändert sich der Status, wenn der Wert das jeweilige Limit n-mal überschreitet. Wenn keine Bedingung zutrifft, kehrt der Auftrag wieder in den Status „OK“ zurück.

Wertabhängige Wartung bei Parsefile-Jobs

Wenn eine Eingabedatei Informationen über den Wartungsstatus eines bestimmten Geräts oder Objekts enthält, kann diese durch einen Parsefile-Job auf dem Geräteobjekt geparst werden, und je nach den Ergebnissen der Parsesequenz kann der Parsefile-Job in den Wartungsstatus versetzt werden oder nicht. Parsefile-Jobs bieten den zusätzlichen Wartungsschwellenwert, um den Job unter Wartung zu setzen:

Ein Job, der sich in Wartung befindet, gibt seinen Wartungsstatus nach oben an sein Gerät weiter. Das Geräteobjekt selbst gibt den Wartungsstatus dann nach unten an alle seine Jobs weiter.

Zeitabhängige Alarm Limits

Standardmäßig sind die konfigurierten Schwellenwerte immer aktiv, was bedeutet, dass kein bestimmter Zeitplan zugewiesen ist. Mit einem Zeitplan können zeitabhängige Schwellenwerte konfiguriert werden. Dies ist nützlich, wenn man unterschiedliche Empfindlichkeitsstufen für Alarme innerhalb oder außerhalb der Betriebszeiten oder während der üblichen Wartungsfenster festlegen möchte. Durch die Konfiguration eines Zeitplans für die Alarm Limits eines Jobs wird die Ausführung des Jobs weiterhin durch sein Ausführungsintervall geregelt, nur sein Status und damit seine Alarmfunktion sind zeitabhängig.

Um zeitabhängige Alarm Limits festzulegen, kann jedem Alarm Limit-Eintrag ein Zeitplan zugewiesen werden. Klicken Sie zunächst auf die Schaltfläche „Zeitplan durchsuchen“, um nach dem Zeitplanobjekt zu suchen. Alle vorhandenen Zeitplanobjekte finden Sie unter /root/Configurations/Schedule. Wählen Sie einen oder mehrere Zeitpläne über die Kontrollkästchen aus und klicken Sie dann auf „Weiter“:

Die ausgewählten Zeitpläne sind nun in der Dropdown-Liste für jedes Alarm Limit verfügbar:

Wenn ein referenziertes Zeitplanobjekt gelöscht wird, ändert sich die Referenz für den Schwellenwert zu „Immer aktiv“.

Wenn die Definition eines Zeitplans geändert wird, wird das Alarm Limit in einem Verlaufsdiagramm anhand der neuen Definition des Zeitplans angezeigt. Dies gilt auch dann, wenn die entsprechenden Zustände anhand der vor der Änderung gültigen Definition berechnet wurden. Verlaufsdiagramme spiegeln nicht den Verlauf von Konfigurationsobjekten wider.

Variable Alarm Limits mit externer Zeitstempelquelle

Statische Alarm Limits eignen sich gut für Systeme, bei denen keine menschliche Interaktion stattfindet. In Situationen, in denen ein Zeitstempel in einer Datei nur aktualisiert wird, wenn ein Mensch Maßnahmen ergreift, wird der Zeitstempel an Feiertagen oder Wochenenden nicht angepasst. Eine Datei, die während der Geschäftszeiten regelmäßig aktualisiert wird, ist möglicherweise nicht älter als 24 Stunden, kann aber an einem Wochenende leicht älter als 60 Stunden sein – ganz zu schweigen davon, was passiert, wenn ein Feiertag an ein Wochenende angrenzt. Um solche Situationen zu bewältigen, kann eine variable Zeitstempelprüfung verwendet werden.

Einige Plugin-Typen (z. B. die Plugins „Execute“ oder „Parsefile“) unterstützen das Lesen des Zeitstempels aus einer externen Quelle.

Der Zeitstempel kann als absolute Anzahl von Sekunden seit 1.1.970 (UNIX-Epochenzeit) oder als variables Alter in Sekunden angegeben werden. Wenn die erstgenannte Methode verwendet wird, kann der Name der Einheit mit dem Zauberwort „timestamp” definiert werden, und die eher unlesbare Zahl wird automatisch in eine für Menschen lesbare Zeichenfolge umgewandelt:

Die entsprechende Konfiguration für einen variablen Alarm Limit sieht wie folgt aus:

Anstelle eines statischen Alarm Limits von z. B. 1 Stunde wird eine spezielle Zeichenfolge wie =1h+132 eingegeben. Das Zeichen „=” kennzeichnet ein variables Alarm Limit. Die folgende Zeichenfolge gibt das gewünschte Alter an, und +132 gibt die ID des hinzuzufügenden Zeitplans an. Informationen zum Erstellen eines Zeitplans finden Sie im Kapitel Zeitplan und Ausnahmezeitplan.

Adaptive Alarm Limits

 

Alarm Limits können auch auf der Grundlage der Standardabweichung (σ) oder einer prozentualen Abweichung festgelegt werden. Die von einem Job gemessenen Werte können für die Alarmierung berücksichtigt werden. Dies kann in Fällen nützlich sein, in denen der Wert eines Jobs einem mehr oder weniger regelmäßigen wöchentlichen Trend folgt. Beispielsweise steigt die Festplatten- und CPU-Auslastung auf einem Gerät, auf dem jeden Sonntag lokale Backup-Jobs ausgeführt werden, während der Backups an und kehrt nach Abschluss der Backups wieder auf ein normales Niveau zurück. Man möchte Fälle erkennen, in denen die Werte für die Festplatten- oder CPU-Auslastung von diesem normalen Verhalten abweichen, z. B. wenn die Festplattenauslastung deutlich ansteigt, obwohl kein Backup-Fenster aktiv ist. Ein weiteres Beispiel für die Verwendung adaptiver Alarm Limits könnte ein Online-Transaktionssystem sein, das normalerweise tagsüber eine hohe Auslastung und nachts oder am Wochenende eine sehr geringe Auslastung aufweist. Adaptive Alarm Limits können dabei helfen, Anomalien in diesem Verhalten zu erkennen.

In Fällen, in denen in einer Wertehistorie ein mehr oder weniger linearer Trend erkennbar ist, z. B. wenn die Festplattenauslastung auf dem Festplattenvolumen eines Servers kontinuierlich steigt, möchte man möglicherweise eine bestimmte Anzahl von Tagen oder Wochen im Voraus benachrichtigt werden, bevor die Festplattenauslastung einen bestimmten Wert erreicht. So kann man zusätzliche Festplatten kaufen, um das Speichervolumen zu vergrößern.

Die Operatoren σ und % sowie die Antizipierten Elemente können für die oben genannten Zwecke verwendet werden:

 

Kombinieren Sie die Operatoren für den Alarm Limit σ oder % nicht mit der Funktion „Anticipated” (in derselben Alarm Limit-Zeile). Verwenden Sie sie für Daten, die einen niedrigen Korrelationskoeffizienten aufweisen, aber regelmäßige wöchentliche Trends zeigen.

Diese adaptiven Alarm Limits können auch mit statischen Alarm Limits kombiniert werden.

Bitte beachten Sie, dass SKOOR Engine einige Zeit benötigt, um die Vorhersagedaten zu berechnen. Während dieser Zeit wird die folgende Meldung im Kopfbereich der Benutzeroberfläche angezeigt, solange die Registerkarte „Adaptiv” ausgewählt ist:

Alarm Limits mit Anticipated-Werten

Wechseln Sie zur Registerkarte „Adaptiv“, um die historischen Werte, die berechnete mittlere Zeitreihe und die entsprechenden in die Zukunft projizierten Alarm Limits anzuzeigen. Das folgende Beispiel zeigt die Registerkarte „Adaptiv“ mit den letzten 14 Tagen einer Wertehistorie (blaue Linie) mit einem nahezu perfekt linearen Trend:

Der aus den Daten berechnete Korrelationskoeffizient wird oben im Diagramm angezeigt. Der Trend der tatsächlich gemessenen Daten wird für die nächsten 25 Wochen in die Zukunft projiziert. Dies entspricht der grauen Trendlinie. Der Zeitbereich in die Zukunft kann aus der zweiten Dropdown-Liste ausgewählt werden.

Für das obige Beispiel wurden die folgenden Alarm Limits festgelegt:

Man sieht, dass der Job eine Woche vor Erreichen des Wertes 240 (wie aufgrund des aktuellen Trends zu erwarten) den Status „Warning“ annimmt. Dasselbe gilt für die Status „Minor“ und „Major“.

Standardabweichung (σ) und prozentuale Abweichung

Für Messwerte, die keinem so klaren linearen Trend folgen, d. h. einen niedrigeren Korrelationskoeffizienten aufweisen, können die σ- oder %-Alarm Limits festgelegt werden:

 

Dieses Beispiel zeigt ein wöchentliches Muster mit deutlich niedrigeren Werten an den Wochenenden. In solchen Fällen ist eine Vorhersage nicht möglich, da die Messwerte über einen großen Bereich verteilt sind, aber die Registerkarte „Adaptiv” visualisiert diese Streuung und kombiniert sie mit den aktuell konfigurierten Alarm Limits:

Das Diagramm auf der Registerkarte „Adaptiv“ kann je nach berechneter Korrelation auf zwei verschiedene Arten dargestellt werden. Wenn der Korrelationskoeffizient r höher als 0,3 ist, wird die stunden-/tagesabhängige Berechnung verwendet und ein trendorientiertes Diagramm angezeigt, wie im Abschnitt „Alarm Limits mit erwarteten Werten“ beschrieben. Es werden dann separate Korrelationskoeffizienten für stündliche und tägliche Daten berechnet. Ist er niedriger, zeigt das Diagramm eine Ansicht der berechneten Alarm Limits, die ausschließlich auf historischen Daten basieren (ohne Prognose für die Zukunft), wie oben zu sehen.

Sollte der Zufallswert am nächsten Wochenende ungewöhnlich hoch sein, z. B. so hoch wie an normalen Wochentagen, würde dies entweder den Alarm Limit +2,5 σ und/oder +200 % auslösen und der Status des Auftrags würde auf „Minor“ oder sogar „Major“ wechseln.

Der Job löst einen Alarm aus, sobald die Messwerte außerhalb der aus historischen Daten berechneten Vorhersagewerte liegen. In der Praxis bedeutet dies, dass die Daten der letzten 5 Wochen für die Berechnung der Statistik berücksichtigt werden, wobei Wochen, die weiter zurückliegen, weniger stark gewichtet werden.

Die Alarm Limits können auch aus dem Werteverlauf des Auftrags eingesehen werden. Weitere Informationen finden Sie im Abschnitt „Werteverlauf anzeigen”.

Einzelne Kurven im obigen Diagramm können durch Klicken auf die runde Schaltfläche mit der entsprechenden Farbe ausgeblendet werden. Wenn Sie beispielsweise auf die schwarze Schaltfläche „Trend“ klicken, wird die Trendlinie ausgeblendet.

Auswahl des Zeitbereichs

Unterhalb des Diagramms auf der Registerkarte „Adaptiv“ befindet sich eine Zeitleiste des gesamten Zeitbereichs, der in der Dropdown-Liste oben im Diagramm konfiguriert wurde (in diesem Beispiel 1 Woche). Hier kann man den im Hauptdiagramm anzuzeigenden Zeitbereich festlegen, indem man einen Zeitbereich mit der Maus auswählt:


Der Zeitbereich unter dem Cursor wird oben als vergrößerter Ausschnitt angezeigt. Er kann an beiden Enden angepasst oder nach links oder rechts verschoben werden.

Offset für prozentuale Alarm Limits

Manchmal wird das prozentuale Alarm Limit ausgelöst, auch wenn die aktuellen Werte einen sehr ähnlichen Trend wie in den Vorwochen zeigen. Dies ist häufig der Fall, wenn die Steilheit der Wertkurve sehr hoch ist. In solchen Fällen können die prozentualen Alarm Limite durch einen numerischen statischen Offset verbessert werden. Das folgende Beispiel zeigt eine Wertkurve (blau), bei der Alarm Limits für den Minor- und Major-Zustand konfiguriert wurden, beide mit einem Schwellenwert von -40 %, wobei das Major-Alarm Limit mit einem zusätzlichen Offset von 1000 konfiguriert wurde. Der Offset wird konfiguriert, indem er mit einem +-Zeichen an den Prozentwert angehängt wird.

        


Der Offset verschiebt die rote Major-Schwellenwertkurve um 1000 Einheiten (in diesem Fall: Anrufe) nach unten, sodass der Major-Schwellenwert während des steilen Anstiegs des Wertes nicht so leicht erreicht wird.

Grenze für prozentuale Alarm Limits

Manchmal möchte man prozentuale Schwellenwerte verwenden, aber sicherstellen, dass es immer noch eine feste Höchstgrenze bei einem bestimmten Wert gibt. Das folgende Beispiel zeigt eine Wertkurve (blau), bei der Alarm Limits für den Minor-Zustand konfiguriert wurden. Eine positive und eine negative prozentuale Grenze mit jeweils einer festen Grenze von 1000 bzw. 3000 Einheiten. Solche Grenzen werden konfiguriert, indem die statische Grenze mit einem >-Zeichen an den Prozentwert angehängt wird.

      

Das bedeutet, dass der negative Grenzwert von 40 % auf 0 gesetzt wird, wenn der berechnete Grenzwert weniger als 1000 beträgt, und der positive Grenzwert von 60 % auf ein Minimum von 3000 gesetzt wird, wenn der berechnete Grenzwert weniger als 3000 beträgt.

Zeitplan für adaptive Alarm Limits

Da adaptive Alarm Limits versuchen, sich an tagesabhängige Lasten anzupassen, kann es erforderlich sein, bekannte Anomalien wie Feiertage zu berücksichtigen. Wenn ein System jeden Freitag eine hohe Last hat, aber am Karfreitag eine sehr geringe oder gar keine Last angenommenwird, muss es eine Möglichkeit geben, dem System beizubringen, dass Karfreitag kein normaler Freitag ist, sondern sich wie ein Sonntag verhält. Um dies zu erreichen, kann ein spezieller Zeitplan konfiguriert werden. Weitere Informationen finden Sie im Abschnitt Zeitplan für die Vorhersage.

Erstellen Sie einen Zeitplan für die Vorhersage:


Im folgenden Beispiel werden am Karfreitag und Ostermontag die adaptiven Alarm Limits angewendet, die aus den Lasten des letzten Sonntags berechnet wurden:


Verknüpfen Sie diesen Zeitplan nun mit Aufgaben mit adaptiven Alarm Limits, indem Sie den Zeitplan über die Dropdown-Liste „Vorhersagezeitplan“ suchen und auswählen:


Sie können auch einmalige Änderungen an den Alarm Limits konfigurieren, indem Sie in der Dropdown-Liste „Wiederholungstyp“ die Option „Einmalig“ anstelle von „Jährlich (Feiertag)“ auswählen:

Diese Zeitplanparameter können auch mit normalen aktiven Zeitplänen innerhalb desselben Zeitplanobjekts kombiniert werden. Die folgende Abbildung zeigt ein Beispiel für einen aktiven Zeitplan, der die Geschäftszeiten für Alarme definiert und außerdem festlegt, dass Karfreitag und Ostermontag für die Berechnung des adaptiven Alarm Limits wie Sonntage behandelt werden sollen:

Korrektur von Jobwerten mit falschen oder fehlenden Messungen

Manchmal sind die Werte eines Jobs durch eine Fehlkonfiguration der Jobparameter verfälscht worden (z. B. wurde ein falscher Wert ausgewählt, der zu extrem hohen oder niedrigen Werten führte) oder weil der Job nicht aktiv war und nicht gemessen hat, als er sollte. Im folgenden Beispiel hat ein Job seit etwa dem 6. Oktober keine korrekten Messungen mehr durchgeführt. Die falschen Werte wirken sich negativ auf die Berechnung der Statistiken aus: 

In einem solchen Fall können Daten ungültig gemacht werden. Im obigen Beispiel wird der Zeitraum zwischen dem 6. und 14. Oktober ungültig gemacht und nicht mehr für die Berechnung des adaptiven Alarm Limits berücksichtigt.

Der erforderliche Zeitbereich kann im Zeitauswahlfeld unterhalb des Diagramms angegeben werden: 

 

Unterhalb des Auswahlfelds werden zwei Schaltflächen angezeigt, eine zum Ungültigmachen und eine zum Validieren der Daten im ausgewählten Zeitbereich:

 

Nachdem Sie auf „Ungültig machen” oder „Gültig machen” geklickt und bestätigt haben, zeigt der Zeitauswahlschieber die entsprechenden Zeiträume mit roten Markierungen an: 

 

Außerdem wird die Schaltfläche „Vorhersagedaten neu berechnensichtbar. Diese Schaltfläche muss angeklickt werden, um die Vorhersagedaten mit den geänderten Werten zu berechnen:

Ziele

Eine spezielle Art von Alarm Limit, die in der SKOOR Engine verfügbar ist, wird als Ziel bezeichnet. Der Zweck dieser Funktion besteht darin, eine Ziellinie in einem Werteverlauf eines Dashboards anzuzeigen. Um einen Zielwert festzulegen, klicken Sie im Bearbeitungsfenster für Alarm Limits auf die Registerkarte „Ziele“:

Klicken Sie auf die Schaltfläche „+“ und wählen Sie einen der verfügbaren Werte aus der Dropdown-Liste aus. Danach kann der gewünschte Wert in das entsprechende Feld eingegeben werden, im obigen Beispiel 5000. Das folgende Wertverlaufs-Widget zeigt das konfigurierte Ziel als gepunktete Linie an, beginnend mit dem Zeitpunkt, zu dem es konfiguriert wurde. Ziele sind wie Alarm Limits zeitabhängig. Auf diese Weise können Wertverläufe immer mit den Alarm Limits und Zielen angezeigt werden, die sie zu einem bestimmten Zeitpunkt hatten.