Alarm Limit bearbeiten (Job)

Statische Alarmgrenzen

Nach dem Anlegen eines Jobs sollten geeignete Schwellenwerte festgelegt werden, um seinen aktuellen Status in Abhängigkeit von den Messwerten darzustellen. Auf den Abschnitt „Alarmgrenzen“ kann direkt zugegriffen werden, indem Sie in der Dropdown-Liste eines Jobs „Bearbeiten -> Alarmgrenzen“ auswählen oder in der Symbolleiste auf „ OK , Alarmgrenzen bearbeiten“ klicken, nachdem die Details des Jobs konfiguriert wurden:

Bei der Joberstellung werden je nach Jobtyp Standardalarmgrenzen festgelegt (siehe Abschnitt Verfügbare Plugins ). Für einen neuen ICMP-Job sind beispielsweise standardmäßig die folgenden Alarmgrenzen konfiguriert:

Für jeden der 3 Zustände Warning , Minor “ und „ Major können separate Alarmgrenzen eingestellt werden.

Um neue Schwellenwerte hinzuzufügen, klicken Sie auf die Schaltfläche „+“ . Wenn mehr als ein Alarm Limit für einen bestimmten Zustand konfiguriert ist, legen Sie deren Korrelation fest, indem Sie eines der Optionsfelder „ Any “ oder „ All“ auswählen. Wenn „Alle“ ausgewählt ist, müssen alle Schwellenwerte erfüllt sein, um den Status des Jobs zu ändern. Klicken Sie auf die Schaltfläche „-“ , um einen Schwellenwert zu entfernen.

Hinzufügen eines zusätzlichen Minor Schwellenwerts zum obigen Beispiel:


In diesem Beispiel wird ein Minor Alarm nur dann ausgelöst, wenn die Roundtrip-Zeit der ICMP-Prüfung bei den letzten drei Jobausführungen über 200 ms lag.

Beispiele für Jobalarmzustände

Die folgenden Beispieldiagramme des Zustandsverlaufs zeigen, wie sich der Zustand eines Jobs für verschiedene Konfigurationen von Alarmgrenzen und deren Zähler ändert. Folgende Zustandsfarben werden verwendet:

Gleiche Limits, steigende Zähler

Konfigurieren Sie den Parameter „for x times“ , um zu definieren, wie oft ein Wert über dem Grenzwert liegen muss, wenn ein Job in den bestimmten Status „Nicht OK wechselt. Wenn der erste Wert unter dem Grenzwert liegt, kehrt der Job zu OK zurück.

Steigende Limits, steigende Zähler

Bei steigenden Werten ändert sich der Zustand, wenn der Wert n-mal über dem jeweiligen Grenzwert liegt. Das Gleiche passiert mit den abnehmenden Werten.

Steigende Limits, sinkende Zähler

Bei steigenden und fallenden Werten ändert sich der Zustand, wenn der Wert n-mal über dem jeweiligen Grenzwert liegt. Wenn keine Bedingung gültig ist, kehrt der Job zu OK zurück.

Wertabhängige Wartung von Parsefile-Jobs

Wenn eine Eingabedatei Informationen über den Wartungsstatus eines bestimmten Geräts oder Objekts enthält, können diese von einem Parsefile-Job für das Geräteobjekt analysiert werden. Abhängig von den Ergebnissen der Parse-Sequenz kann der Parsefile-Job in den Wartungsstatus versetzt werden oder nicht. Parsefile-Jobs bieten den zusätzlichen Wartungsschwellenwert, um das Festlegen des Jobs unter Wartung zu ermöglichen:

Ein Job, der sich in der Wartung befindet, gibt seinen Wartungsstatus an sein Gerät weiter. Das Geräteobjekt selbst gibt den Wartungsstatus dann nach unten an alle seine Jobs weiter.

Zeitabhängige Alarmgrenzen

Standardmäßig sind die konfigurierten Schwellenwerte immer aktiv, was bedeutet, dass kein bestimmter Zeitplan zugewiesen ist. Mithilfe eines Zeitplans können zeitabhängige Schwellenwerte konfiguriert werden. Dies ist sinnvoll, wenn man unterschiedliche Empfindlichkeitsstufen für die Alarmierung innerhalb oder außerhalb der Betriebszeiten oder während der üblichen Wartungsfenster festlegen möchte. Durch die Konfiguration eines Zeitplans für die Alarmgrenzen eines Jobs wird die Ausführung des Jobs weiterhin durch sein Ausführungsintervall bestimmt, nur sein Status und damit seine Alarmierungsfunktionalität sind zeitabhängig.

Um zeitabhängige Alarmgrenzen festzulegen, kann jedem Alarm Limit ein Zeitplan zugewiesen werden. Klicken Sie zunächst auf die Schaltfläche „Zeitplan durchsuchen“ , um nach dem Zeitplanobjekt zu suchen. Alle vorhandenen Zeitplanobjekte finden Sie unter /root/Configurations/Schedule . Wählen Sie mithilfe der Kontrollkästchen einen oder mehrere Zeitpläne aus und klicken Sie dann auf Weiter :

Jetzt sind die ausgewählten Zeitpläne in der Dropdown-Liste für jede der Alarmgrenzen verfügbar:

Wenn ein referenziertes Zeitplanobjekt gelöscht wird, ändert sich die Referenz für den Schwellenwert in „Immer aktiv“ .

Wenn die Definition eines Zeitplans geändert wird, wird die Alarm Limit in einem Verlaufsdiagramm unter Verwendung der neuen Definition des Zeitplans angezeigt. Dies gilt, obwohl die entsprechenden Zustände anhand der vor der Änderung gültigen Definition berechnet wurden. Verlaufsdiagramme spiegeln nicht den Verlauf von Konfigurationsobjekten wider.

Variable Alarmgrenzen mit externer Zeitstempelquelle

Statische Alarmgrenzen funktionieren gut für Systeme, die keine menschliche Interaktion haben. In Situationen, in denen ein Zeitstempel in einer Datei nur aktualisiert wird, wenn ein Mensch Maßnahmen ergreift, wird der Zeitstempel an Feiertagen oder Wochenenden nicht angepasst. Eine Datei, die während der Geschäftszeiten regelmäßig aktualisiert wird, darf nicht älter als 24 Stunden sein, kann aber an einem Wochenende durchaus älter als 60 Stunden sein – ganz zu schweigen davon, was passiert, wenn ein Feiertag an ein Wochenende angrenzt. Um solche Situationen zu bewältigen, kann eine variable Zeitstempelprüfung verwendet werden.

Einige Plugin-Typen (z. B. die Plugins Execute oder Parsefile ) unterstützen das Lesen des Zeitstempels aus einer externen Quelle.

Der Zeitstempel kann als absolute Anzahl von Sekunden seit dem 1.1.970 (UNIX-Epochenzeit) oder als variables Alter in Sekunden angegeben werden. Wenn die erstere Methode verwendet wird, kann der Einheitenname mit dem Zauberwort Zeitstempel definiert werden und die eher unleserliche Zahl wird automatisch in eine für Menschen lesbare Zeichenfolge umgewandelt:

Die entsprechende Konfiguration für einen variablen Alarm Limit sieht wie folgt aus:

Anstelle einer statischen Grenze von zB 1h wird eine spezielle Zeichenfolge wie =1h+132 eingegeben. Das „=“-Zeichen markiert einen variablen Alarm Limit . Die folgende Zeichenfolge drückt das gewünschte Alter aus und +132 gibt die ID des hinzuzufügenden Zeitplans an. Informationen zum Erstellen eines Zeitplans finden Sie im Kapitel Zeitplan und Ausnahmezeitplan .

Adaptive Alarmgrenzen

Alarmgrenzen können auch basierend auf der Standardabweichung (σ) oder einer prozentualen Abweichung festgelegt werden. Die von einem Job gemessenen Werte können für die Alarmierung berücksichtigt werden. Dies kann in Fällen nützlich sein, in denen der Wert eines Jobs einem mehr oder weniger regelmäßigen wöchentlichen Trend folgt. Beispielsweise steigt die Festplatten- und CPU-Auslastung auf einem Gerät, das jeden Sonntag lokale Sicherungsjobs ausführt, während der Sicherungen an und pendelt sich nach Abschluss der Sicherungen auf ein normales Niveau ein. Man möchte die Fälle erkennen, in denen die Festplatten- oder CPU-Auslastungswerte von diesem normalen Verhalten abweichen, z. B. wenn die Festplattenauslastung deutlich ansteigt, wenn keine Backup-Fenster aktiv sind. Ein weiteres Beispiel für die Verwendung adaptiver Alarmgrenzen könnte ein Online-Transaktionssystem sein, das normalerweise tagsüber eine hohe Auslastung und nachts oder am Wochenende eine sehr niedrige Auslastung aufweist. Adaptive Alarmgrenzen können dabei helfen, Anomalien in diesem Verhalten zu erkennen.

In Fällen, in denen ein mehr oder weniger linearer Trend in einem Werteverlauf erkennbar ist, z. B. wenn die Festplattennutzung auf dem Festplattenvolumen eines Server kontinuierlich ansteigt, möchte man möglicherweise eine bestimmte Anzahl von Tagen oder Wochen im Voraus benachrichtigt werden, bevor die Festplatte verfügbar ist Der Nutzungsgrad erreicht einen bestimmten Wert. Nur so kann man zusätzliche Festplatten kaufen, um das Speichervolumen zu vergrößern.

Die σ- und % Operatoren sowie die erwarteten Elemente können für die oben genannten Zwecke verwendet werden:

 

Kombinieren Sie die σ- oder % Alarm Limit Operatoren nicht mit der Erwartungsfunktion (auf derselben Alarm Limit ). Verwenden Sie sie für Daten, die einen niedrigen Korrelationskoeffizienten haben, aber regelmäßige wöchentliche Trends aufweisen.

Diese adaptiven Alarmgrenzen können auch mit statischen Alarmgrenzen kombiniert werden.

Bitte beachten Sie, dass SKOOR Engine einige Zeit benötigt, um die Vorhersagedaten zu berechnen. Während dieser Zeit wird im Kopfbereich der Benutzeroberfläche die folgende Meldung angezeigt, sofern die Registerkarte „Adaptiv“ ausgewählt ist:

Alarmgrenzen mit erwarteten Werten

Wechseln Sie zur Registerkarte „Adaptiv“ , um die Verlaufswerte, die berechnete mittlere Zeitreihe und die entsprechenden in die Zukunft projizierten Alarmgrenzen anzuzeigen. Das folgende Beispiel zeigt den Tab „Adaptiv“ mit den letzten 14 Tagen eines Werteverlaufs (blaue Linie) mit einem nahezu perfekt linearen Trend:

Der aus den Daten berechnete Korrelationskoeffizient wird oben im Diagramm angezeigt. Der Trend der tatsächlich gemessenen Daten wird für die nächsten 25 Wochen in die Zukunft projiziert. Dies entspricht der grauen Trendlinie . Der Zeitbereich in die Zukunft kann aus der zweiten Dropdown-Liste ausgewählt werden.

Für das obige Beispiel wurden folgende Alarmgrenzen eingestellt:

Man erkennt, dass der Job eine Woche vor Erreichen des Werts 240 (wie aus dem aktuellen Trend zu erwarten) in den Status Warning wechselt. Das Gleiche gilt für die Minor und Major Staaten.

Standardabweichung (σ) und prozentuale Abweichung

Für Messwerte, die keinem so eindeutigen linearen Trend folgen, also einen geringeren Korrelationskoeffizienten aufweisen, können die σ- oder %-Alarmgrenzen eingestellt werden:

Dieses Beispiel zeigt ein wöchentliches Muster mit deutlich niedrigeren Werten an Wochenenden. In solchen Fällen ist eine Vorhersage nicht möglich, da die Messwerte über einen großen Bereich streuen, aber der Reiter „Adaptiv“ visualisiert diese Streuung und kombiniert sie mit den aktuell konfigurierten Alarmgrenzen:

Das Diagramm auf der Registerkarte „Adaptiv“ kann abhängig von der berechneten Korrelation auf zwei verschiedene Arten angezeigt werden. Wenn der Korrelationskoeffizient r höher als 0,3 ist , wird die stunden-/tagabhängige Berechnung verwendet und ein trendfokussiertes Diagramm wird angezeigt, wie im Abschnitt Alarmgrenzen mit erwarteten Werten . Anschließend werden separate Korrelationskoeffizienten für stündliche und tägliche Daten berechnet. Wenn der Wert niedriger ist, zeigt das Diagramm eine Ansicht der berechneten Alarmgrenzen, die ausschließlich auf historischen Daten basieren (ohne Vorhersage in die Zukunft), wie oben dargestellt.

Sollte der Zufallswert am nächsten Wochenende ungewöhnlich hoch sein, z. B. so hoch wie an normalen Wochentagen, würde dies entweder den Alarmgrenzwert +2,5 σ und/oder den Alarm Limit +200 % auslösen und der Status des Jobs würde in „ Minor “ oder sogar Major wechseln.

Der Job generiert einen Alarm, sobald die Messwerte außerhalb der aus historischen Daten berechneten vorhergesagten Werte liegen. Praktisch bedeutet dies, dass die Daten der letzten 5 Wochen für die Berechnung der Statistik berücksichtigt werden, wobei die Gewichtung gegenüber Wochen, die länger zurückliegen, verringert wird.

Die Alarmgrenzen können auch im Werteverlauf des Jobs eingesehen werden. Weitere Informationen finden Sie im Abschnitt Wertverlauf anzeigen .

Einzelne Kurven im Diagramm oben können durch Klicken auf den runden Button mit der entsprechenden Farbe ausgeblendet werden. Wenn Sie beispielsweise auf die schwarze Schaltfläche „Trend“ klicken, wird die Trendlinie ausgeblendet.

Auswahl des Zeitbereichs

Unterhalb des Diagramms auf der Registerkarte „Adaptiv“ befindet sich eine Zeitleiste des gesamten Zeitraums, der in der Dropdown-Liste oben im Diagramm konfiguriert wurde (in diesem Beispiel 1 Woche). Hier kann man den im Hauptdiagramm anzuzeigenden Zeitbereich festlegen, indem man mit der Maus einen Zeitbereich auswählt:


Der Zeitbereich unterhalb des Cursors wird oben als vergrößerter Ausschnitt angezeigt. Es kann an beiden Enden verstellt oder nach links oder rechts verschoben werden.

Offset für prozentuale Alarmgrenzen

Manchmal wird die prozentuale Alarm Limit ausgelöst, auch wenn die aktuellen Werte einen sehr ähnlichen Trend wie in den Vorwochen zeigen. Dies ist häufig in Zeiten der Fall, in denen die Steilheit der Wertkurve sehr hoch ist. In solchen Fällen können die prozentualen Alarmgrenzen um einen numerischen statischen Offset erweitert werden. Das folgende Beispiel zeigt eine Wertekurve (blau), in der Alarmgrenzen für Minor und Major Zustand konfiguriert wurden, beide mit einem Schwellenwert von -40 %, aber der Major Alarm Limit wurde mit einem zusätzlichen Offset von 1000 konfiguriert. Der Offset wird durch Anhängen konfiguriert Geben Sie ihn mit einem + -Zeichen auf den Prozentwert an.


Der Offset verschiebt die rote Major Schwellenwertkurve um 1000 Einheiten (in diesem Fall: Anrufe ) nach unten, sodass der Major Schwellenwert während des steilen Beginns des steigenden Werts nicht leicht erreicht wird.

Grenzwert für prozentuale Alarmgrenzen

Manchmal möchte man prozentuale Schwellenwerte verwenden, möchte aber sicherstellen, dass es bei einem bestimmten Wert immer noch eine feste Obergrenze gibt. Das folgende Beispiel zeigt eine Wertekurve (blau), bei der Alarmgrenzen für Minor Status konfiguriert wurden. Ein positiver und ein negativer prozentualer Grenzwert mit jeweils einem festen Grenzwert von 1000 bzw. 3000 Einheiten. Solche Grenzwerte werden konfiguriert, indem der statische Grenzwert mit einem > -Zeichen an den Prozentwert angehängt wird.

      

Dies bedeutet, dass der negative Grenzwert von 40 % auf 0 gesetzt wird, wenn der berechnete Grenzwert kleiner als 1000 wäre, und der positive Grenzwert von 60 % auf ein Minimum von 3000 gesetzt wird, wenn der berechnete Grenzwert kleiner als 3000 wäre.

Zeitplan für adaptive Alarmgrenzen

Da adaptive Alarmgrenzen versuchen, tagesabhängige Lasten anzupassen, kann es notwendig sein, bekannte Anomalien wie Feiertage zu berücksichtigen. Wenn ein System jeden Freitag eine hohe Auslastung aufweist, am Karfreitag jedoch eine sehr geringe oder gar keine Auslastung angenommen wird, muss es eine Möglichkeit geben, dem System beizubringen, dass der Karfreitag kein normaler Freitag ist, sondern sich wie ein Sonntag verhält . Um dies zu erreichen, kann ein spezieller Zeitplan konfiguriert werden. Weitere Informationen finden Sie im Abschnitt Zeitplan für Vorhersagen .

Erstellen Sie einen Zeitplan für die Vorhersage:


Im folgenden Beispiel werden am Karfreitag und Ostermontag die aus den Lasten des letzten Sonntags berechneten adaptiven Alarmgrenzen angewendet:


Verknüpfen Sie diesen Zeitplan nun mit Jobs mit adaptiven Alarmgrenzen, indem Sie den Zeitplan mithilfe der Dropdown-Liste „Vorhersagezeitplan“ durchsuchen und auswählen:


Sie können auch einmalige Änderungen an den Alarmgrenzen konfigurieren, indem Sie in der Dropdown-Liste „ Wiederholungstyp “ die Option „ Einmal“ statt „Jährlich (Feiertag)“ auswählen:

Diese Zeitplanparameter können auch mit gewöhnlichen aktiven Zeitplänen innerhalb desselben Zeitplanobjekts kombiniert werden. Die folgende Abbildung zeigt ein Beispiel für einen aktiven Zeitplan, der die Geschäftszeiten für die Alarmierung definiert und außerdem angibt, dass Karfreitag und Ostermontag für die adaptiven Alarm Limit als Sonntage behandelt werden sollen:

Korrigieren von Auftragswerten mit falschen oder fehlenden Messungen

Manchmal wurden die Werte eines Jobs durch eine Fehlkonfiguration der Jobparameter verfälscht (z. B. wurde ein falscher Wert ausgewählt, was zu extrem hohen oder niedrigen Werten führte) oder weil der Job nicht aktiv war und gemessen hat, wann er hätte sein sollen. Im folgenden Beispiel führte ein Job seit etwa dem 6. Oktober keine korrekten Messungen mehr durch. Die falschen Werte wirken sich negativ auf die Statistikberechnung aus:

In einem solchen Fall können die Daten ungültig werden. Im obigen Beispiel wird der Zeitraum zwischen dem 6. und 14. Oktober ungültig gemacht und nicht mehr für die Berechnung des adaptiven Alarm Limit berücksichtigt.

Der erforderliche Zeitbereich kann in der Zeitauswahl unterhalb der Grafik angegeben werden:

Unterhalb des Selektors werden zwei Schaltflächen angezeigt, eine zum Ungültigmachen und eine zum Validieren von Daten im ausgewählten Zeitbereich:

<p class="FormatvorlageLinks1cmRechts059cm">Nachdem Invalidieren oder Validieren angeklickt und bestätigt wurde, zeigt der Zeitselektor die jeweiligen Zeitbereiche mit roten Markierungen an:

Außerdem wird die Schaltfläche „Vorhersagedaten neu berechnen“ angezeigt. Um die Vorhersagedaten mit den geänderten Werten zu berechnen, muss dieser Button angeklickt werden:

Ziele

Eine spezielle Art von Alarm Limit , die in der SKOOR Engine verfügbar ist, heißt Target . Der Zweck besteht darin, eine Ziellinie in einem Werteverlauf eines Dashboards anzuzeigen. Um einen Zielwert festzulegen, klicken Sie im Bearbeitungsfenster für Alarmgrenzen auf die Registerkarte „Ziele“ :

Klicken Sie auf die Schaltfläche „+“ und wählen Sie einen der verfügbaren Werte aus der Dropdown-Liste aus. Anschließend kann im entsprechenden Feld der gewünschte Wert eingestellt werden, im Beispiel oben 5000. Das folgende Wertverlaufs-Widget zeigt das konfigurierte Ziel als gepunktete Linie an, beginnend mit dem Zeitpunkt der Konfiguration. Ziele wie Alarmgrenzen sind zeitabhängig. Auf diese Weise können Werteverläufe jederzeit mit ihren Alarmgrenzen und Zielen zu einem bestimmten Zeitpunkt angezeigt werden.