Alarm Limit bearbeiten (Job)
Statische Alarmgrenzen
Nach dem Anlegen eines Jobs sollte man geeignete Schwellwerte setzen, um seinen aktuellen Status in Abhängigkeit von den Messwerten darzustellen. Auf den Abschnitt Alarmgrenzen kann direkt zugegriffen werden, indem Sie Bearbeiten -> Alarmgrenzen aus der Dropdown-Liste eines Jobs auswählen oder indem Sie in der Symbolleiste auf „ OK , Alarmgrenzen bearbeiten“ klicken, nachdem die Details des Jobs konfiguriert wurden:
Bei der Joberstellung werden je nach Jobtyp standardmäßige Alarmgrenzen festgelegt (siehe Abschnitt Verfügbare Plug - ins ). Für einen neuen Icmp-Job sind beispielsweise standardmäßig die folgenden Alarmgrenzen konfiguriert:
Für jeden der 3 Zustände Warning , Minor oder Major können separate Alarmgrenzen eingestellt werden.
Um neue Schwellenwerte hinzuzufügen, klicken Sie auf die Schaltfläche + . Wenn mehr als eine Alarm Limit für einen bestimmten Zustand konfiguriert ist, legen Sie ihre Korrelation fest, indem Sie entweder eines der Optionsfelder Any oder All auswählen. Wenn alle ausgewählt ist, müssen alle Schwellenwerte erfüllt sein, um den Status des Jobs zu ändern. Klicken Sie auf die Schaltfläche - , um einen Schwellenwert zu entfernen.
Hinzufügen eines zusätzlichen Minor -Schwellenwerts zum obigen Beispiel:
In diesem Beispiel wird ein Minor -Alarm nur ausgelöst, wenn die Roundtrip-Zeit der ICMP-Prüfung bei den letzten 3 Jobausführungen über 200 ms lag.
Beispiele für Auftragsalarmzustände
Die folgenden Beispieldiagramme des Statusverlaufs zeigen, wie sich der Status eines Jobs für verschiedene Konfigurationen von Alarmgrenzen und deren Zählern ändert. Die folgenden Zustandsfarben werden verwendet:
Gleiche Limits, steigende Zähler
Konfigurieren Sie den Parameter for x times , um zu definieren, wie oft ein Wert über dem Grenzwert liegen muss, wenn ein Job in den bestimmten Nicht- OK -Zustand wechselt. Mit dem ersten Wert unterhalb des Limits wechselt der Job zurück auf OK .
|
|
Limits erhöhen, Zähler erhöhen
Bei steigenden Werten ändert sich der Zustand, wenn der Wert n-mal über der jeweiligen Grenze liegt. Dasselbe passiert mit den abnehmenden Werten.
|
|
Limits erhöhen, Zähler verringern
Bei steigenden und fallenden Werten ändert sich der Zustand, wenn der Wert n-mal über der jeweiligen Grenze liegt. Wenn keine Bedingung zutrifft, geht der Job zurück auf OK .
|
|
Wertabhängige Pflege von Parsefile-Jobs
Wenn eine Eingabedatei Informationen über den Wartungszustand eines bestimmten Geräts oder Objekts enthält, kann dies durch einen Parsefile-Job auf dem Geräteobjekt geparst werden und je nach Ergebnis der Parse-Sequenz kann der Parsefile-Job in den Wartungszustand versetzt werden oder nicht. Parsefile-Jobs bieten den zusätzlichen Maintenance-Schwellenwert, um das Einstellen des Jobs unter Maintenance zu ermöglichen:
Ein Job, der gewartet wird, gibt seinen Wartungsstatus nach oben an sein Gerät weiter. Das Geräteobjekt selbst gibt dann den Wartungszustand nach unten an alle seine Jobs weiter.
Zeitabhängige Alarmgrenzen
Standardmäßig sind die konfigurierten Schwellenwerte immer aktiv , was bedeutet, dass kein bestimmter Zeitplan zugewiesen wird. Mithilfe eines Zeitplans können zeitabhängige Schwellenwerte konfiguriert werden. Dies ist sinnvoll, wenn man unterschiedliche Empfindlichkeitsstufen für die Alarmierung innerhalb oder außerhalb der Betriebszeiten oder während der üblichen Wartungsfenster festlegen möchte. Durch die Konfiguration eines Zeitplans für die Alarmgrenzen eines Jobs wird die Ausführung des Jobs weiterhin von seinem Ausführungsintervall bestimmt, nur sein Zustand und damit seine Alarmierungsfunktionalität sind zeitabhängig.
Um zeitabhängige Alarmgrenzen festzulegen, kann jedem Alarm Limit ein Zeitplan zugewiesen werden. Klicken Sie zunächst auf die Schaltfläche Zeitplan durchsuchen, um nach dem Zeitplanobjekt zu suchen. Alle vorhandenen Zeitplanobjekte finden Sie unter /root/Configurations/Schedule . Wählen Sie mithilfe der Kontrollkästchen einen oder mehrere Zeitpläne aus und klicken Sie dann auf Weiter :
Jetzt sind die ausgewählten Zeitpläne in der Dropdown-Liste für jede der Alarmgrenzen verfügbar:
Wenn ein referenziertes Zeitplanobjekt gelöscht wird, ändert sich die Referenz für den Schwellenwert in Immer aktiv .
Wenn die Definition eines Zeitplans geändert wird, wird die Alarm Limit in einem Verlaufsdiagramm mit der neuen Definition des Zeitplans angezeigt. Dies gilt, obwohl die entsprechenden Zustände mit der vor der Änderung gültigen Definition berechnet wurden. Verlaufsdiagramme spiegeln nicht den Verlauf von Konfigurationsobjekten wider.
Variable Alarmgrenzen mit externer Zeitstempelquelle
Statische Alarmgrenzen eignen sich gut für Systeme ohne menschliche Interaktion. In Situationen, in denen ein Zeitstempel in einer Datei nur aktualisiert wird, wenn ein Mensch etwas unternimmt, wird der Zeitstempel an Feiertagen oder Wochenenden nicht angepasst. Eine Datei, die regelmäßig während der Geschäftszeiten aktualisiert wird, darf nicht älter als 24 Stunden sein, am Wochenende aber durchaus älter als 60 Stunden – ganz zu schweigen davon, was passiert, wenn an ein Wochenende ein Feiertag angrenzt. Um solche Situationen zu handhaben, kann eine variable Zeitstempelprüfung verwendet werden.
Einige Plugin-Typen (z. B. die Execute- oder Parsefile- Plugins) unterstützen das Lesen des Zeitstempels aus einer externen Quelle.
Der Zeitstempel kann als absolute Anzahl von Sekunden seit dem 1.1.970 (UNIX-Epochenzeit) oder als variables Alter in Sekunden angegeben werden. Bei ersterer Methode kann der Unit- Name mit dem Zauberwort timestamp definiert werden und die eher unlesbare Zahl wird automatisch in einen für Menschen lesbaren String umgewandelt:
Die entsprechende Konfiguration für eine variable Alarm Limit sieht wie folgt aus:
Anstelle eines statischen Limits von zB 1h wird ein spezieller String wie =1h+132 eingetragen. Das Zeichen "=" kennzeichnet eine variable Alarm Limit . Die folgende Zeichenfolge drückt das gewünschte Alter aus und die +132 gibt die ID des hinzuzufügenden Zeitplans an. Informationen zum Erstellen eines Zeitplans finden Sie im Kapitel Zeitplan und Ausnahmezeitplan .
Adaptive Alarmgrenzen
Alarmgrenzen können auch basierend auf der Standardabweichung (σ) oder einer prozentualen Abweichung eingestellt werden. Die von einem Job gemessenen Werte können als alarmierend betrachtet werden. Dies kann in Fällen nützlich sein, in denen der Wert eines Jobs einem mehr oder weniger regelmäßigen wöchentlichen Trend folgt. Beispielsweise steigt die Festplatten- und CPU-Auslastung auf einem Gerät, das jeden Sonntag lokale Backup-Jobs ausführt, während der Backups an und pendelt sich nach Abschluss der Backups auf ein normales Niveau ein. Man möchte solche Fälle erkennen, in denen die Platten- oder CPU-Auslastungswerte von diesem normalen Verhalten abweichen, zB wenn die Plattenauslastung stark ansteigt, wenn keine Backup-Fenster aktiv sind. Ein weiteres Beispiel für die Verwendung adaptiver Alarmgrenzen könnte ein Online-Transaktionssystem sein, das normalerweise tagsüber eine hohe und nachts oder am Wochenende eine sehr niedrige Last aufweist. Adaptive Alarmgrenzen können dabei helfen, Anomalien in diesem Verhalten zu erkennen.
In Fällen, in denen ein mehr oder weniger linearer Trend in einem Werteverlauf erkennbar ist, zB wenn die Server auf dem Plattenvolumen eines Dateiservers kontinuierlich ansteigt, möchte man möglicherweise eine bestimmte Anzahl von Tagen oder Wochen im Voraus vor der Platte benachrichtigt werden Nutzungsniveau erreicht einen bestimmten Wert. Nur so kann man zusätzliche Festplatten kaufen, um das Speichervolumen zu vergrößern.
Die σ- und % Operatoren sowie die erwarteten Elemente können für die oben genannten Zwecke verwendet werden:
Kombinieren Sie die σ- oder % Alarm Limit - Operatoren nicht mit der erwarteten Funktion (auf derselben Alarm Limit -Zeile). Verwenden Sie sie für Daten, die einen niedrigen Korrelationskoeffizienten aufweisen, aber regelmäßige wöchentliche Trends aufweisen.
Diese adaptiven Alarmgrenzen können auch mit statischen Alarmgrenzen kombiniert werden.
Bitte beachten Sie, dass SKOOR Engine einige Zeit benötigt, um Vorhersagedaten zu berechnen. Während dieser Zeit wird die folgende Meldung im Kopfbereich der Benutzeroberfläche angezeigt, solange die Registerkarte „ Adaptiv “ ausgewählt ist:
Alarmgrenzen mit erwarteten Werten
Wechseln Sie zur Registerkarte Adaptiv , um die historischen Werte, die berechneten mittleren Zeitreihen und die entsprechenden in die Zukunft projizierten Alarmgrenzen anzuzeigen. Das folgende Beispiel zeigt den Reiter Adaptiv mit den letzten 14 Tagen einer Wertehistorie (blaue Linie) mit nahezu perfekt linearem Trend:
Der aus den Daten berechnete Korrelationskoeffizient wird über der Grafik angezeigt. Der Trend der tatsächlich gemessenen Daten wird für die nächsten 25 Wochen in die Zukunft projiziert. Dies entspricht der grauen Trendlinie . Der Zeitbereich in die Zukunft kann aus der zweiten Dropdown-Liste ausgewählt werden.
Für das obige Beispiel wurden folgende Alarmgrenzen eingestellt:
Man sieht, dass 1 Woche bevor der Wert 240 erreicht wird (wie vom aktuellen Trend erwartet), der Job den Zustand Warning annimmt. Dasselbe gilt für die Minor und Major Zustände.
Standardabweichung (σ) und prozentuale Abweichung
Für Messwerte, die keinem so eindeutigen linearen Trend folgen, also einen geringeren Korrelationskoeffizienten aufweisen, können die σ- oder %-Alarmgrenzen eingestellt werden:
Dieses Beispiel zeigt ein wöchentliches Muster mit deutlich niedrigeren Werten am Wochenende. In solchen Fällen ist eine Vorhersage nicht möglich, da die Messwerte über einen weiten Bereich streuen, aber der Reiter Adaptiv visualisiert diese Streuung und kombiniert sie mit den aktuell konfigurierten Alarmgrenzen:
Das Diagramm auf der Registerkarte „Adaptiv “ kann abhängig von der berechneten Korrelation auf zwei verschiedene Arten angezeigt werden. Wenn der Korrelationskoeffizient r größer als 0,3 ist, wird die stunden-/tagesabhängige Berechnung verwendet und ein trendorientiertes Diagramm wird angezeigt, wie im Abschnitt Alarmgrenzen mit erwarteten Werten . Für stündliche und tägliche Daten werden dann getrennte Korrelationskoeffizienten berechnet. Wenn es niedriger ist, zeigt das Diagramm eine Ansicht der berechneten Alarmgrenzen, die nur auf historischen Daten basieren (ohne Vorhersage in die Zukunft), wie oben gezeigt.
Sollte der Zufallswert am nächsten Wochenende ungewöhnlich hoch sein, z. B. so hoch wie an normalen Wochentagen, würde dies entweder die +2,5 σ und/oder die +200 % Alarm Limit auslösen und der Status des Jobs würde Minor oder sogar Major werden.
Der Job generiert einen Alarm, sobald gemessene Werte außerhalb der aus historischen Daten berechneten vorhergesagten Werte liegen. Praktisch bedeutet dies, dass die Daten der letzten 5 Wochen für die Berechnung der Statistik mit reduzierter Gewichtung hin zu länger zurückliegenden Wochen berücksichtigt werden.
Die Alarmgrenzen können auch aus der Wertehistorie des Jobs eingesehen werden. Siehe Abschnitt Werthistorie anzeigen für Details.
Einzelne Kurven in der obigen Grafik können durch Klicken auf die runde Schaltfläche mit der entsprechenden Farbe ausgeblendet werden. Wenn Sie zB auf die schwarze Trend -Schaltfläche klicken, wird die Trendlinie ausgeblendet.
Auswahl des Zeitbereichs
Unterhalb des Diagramms auf der Registerkarte " Adaptiv " befindet sich eine Zeitachse des gesamten Zeitbereichs, der in der Dropdown-Liste über dem Diagramm konfiguriert wurde (in diesem Beispiel 1 Woche). Hier kann man den Zeitbereich angeben, der im Hauptdiagramm angezeigt werden soll, indem man einen Zeitbereich mit der Maus auswählt:
Der Zeitbereich unter dem Cursor wird oben als gezoomter Abschnitt angezeigt. Es kann an jedem Ende angepasst oder nach links oder rechts verschoben werden.
Offset für prozentuale Alarmgrenzen
Manchmal wird die prozentuale Alarm Limit auch dann ausgelöst, wenn die aktuellen Werte einen sehr ähnlichen Trend wie in den Vorwochen aufweisen. Dies ist oft der Fall, wenn die Steilheit der Wertkurve sehr hoch ist. In solchen Fällen können die prozentualen Alarmgrenzen mit einem numerischen statischen Offset erweitert werden. Das folgende Beispiel zeigt eine Wertekurve (blau), bei der Alarmgrenzen für den Zustand „ Minor “ und „ Major “ konfiguriert wurden, beide mit einem Schwellenwert von -40 %, aber die Alarm Limit „ Major “ wurde mit einem zusätzlichen Offset von 1000 konfiguriert. Der Offset wird durch Anhängen konfiguriert es mit einem + Zeichen auf den Prozentwert.
Der Offset verschiebt die rote Major -Schwellenwertkurve um 1000 Einheiten (in diesem Fall: Anrufe ) nach unten, sodass der Major -Schwellenwert während des steilen Beginns des ansteigenden Werts nicht leicht erreicht wird.
Limit für prozentuale Alarmgrenzen
Manchmal möchte man prozentuale Schwellenwerte verwenden, möchte aber sicherstellen, dass es bei einem bestimmten Wert immer noch eine harte Obergrenze gibt. Das folgende Beispiel zeigt eine Wertekurve (blau), bei der Alarmgrenzen für den Minor -Zustand konfiguriert wurden. Eine positive und eine negative Prozentgrenze mit jeweils einer harten Grenze von 1000 bzw. 3000 Einheiten. Solche Grenzwerte werden konfiguriert, indem der statische Grenzwert mit einem > -Zeichen an den Prozentwert angehängt wird.
Das bedeutet, dass die negative Grenze von 40 % auf 0 gesetzt wird, wenn die berechnete Grenze kleiner als 1000 wäre, bzw. die positive Grenze von 60 % auf mindestens 3000 gesetzt wird, wenn die berechnete Grenze kleiner als 3000 wäre.
Zeitplan für adaptive Alarmgrenzen
Da adaptive Alarmgrenzen versuchen, tagesabhängige Lasten anzupassen, kann es notwendig sein, bekannte Anomalien wie Feiertage zu berücksichtigen. Wenn ein System jeden Freitag eine hohe Last hat, aber am Karfreitag von einer sehr niedrigen Last oder gar keiner Last ausgegangen wird, muss es eine Möglichkeit geben, dem System beizubringen, dass der Karfreitag kein normaler Freitag ist, sondern sich wie ein Sonntag verhalten wird . Um dies zu erreichen, kann eine spezielle Art von Zeitplan konfiguriert werden. Weitere Informationen finden Sie im Abschnitt Zeitplan für die Vorhersage .
Erstellen Sie einen Zeitplan für die Vorhersage:
Im folgenden Beispiel werden am Karfreitag und Ostermontag die aus den letzten Sonntagslasten berechneten adaptiven Alarmgrenzen angewendet:
Verknüpfen Sie diesen Zeitplan nun mit Jobs mit adaptiven Alarmgrenzen, indem Sie den Zeitplan durchsuchen und mithilfe der Dropdown-Liste Vorhersagezeitplan auswählen:
Sie können auch einmalige Änderungen an den Alarmgrenzen konfigurieren, indem Sie Einmal anstelle von Jährlich (Urlaub) aus der Dropdown-Liste Wiederholungstyp auswählen:
Diese Zeitplanparameter können auch mit gewöhnlichen aktiven Zeitplänen innerhalb desselben Zeitplanobjekts kombiniert werden. Die folgende Abbildung zeigt ein Beispiel eines aktiven Zeitplans, der Geschäftszeiten für die Alarmierung definiert und außerdem festlegt, dass Karfreitag und Ostermontag für adaptive Alarm Limit als Sonntage behandelt werden sollen:
Korrigieren von Auftragswerten mit falschen oder fehlenden Messungen
Manchmal wurden die Werte eines Jobs durch eine Fehlkonfiguration der Jobparameter (z. B. ein falscher Wert wurde ausgewählt, der zu extrem hohen oder niedrigen Werten führte) oder dadurch, dass der Job nicht aktiv war und gemessen hat, als er es hätte tun sollen, verfälscht. Im folgenden Beispiel hat ein Job seit etwa dem 6. Oktober keine korrekten Messungen mehr durchgeführt. Die falschen Werte wirken sich negativ auf die Statistikberechnung aus:
In einem solchen Fall können Daten ungültig gemacht werden. Im obigen Beispiel wird der Zeitbereich zwischen dem 6. Oktober und dem 14. Oktober ungültig und nicht mehr für die Berechnung der adaptiven Alarm Limit berücksichtigt.
Der erforderliche Zeitbereich kann in der Zeitauswahl unter dem Diagramm angegeben werden:
Unter dem Selektor sind zwei Schaltflächen sichtbar, eine zum Invalidieren und eine zum Validieren von Daten im ausgewählten Zeitbereich:
Links1cmRechts059cm">Nachdem Invalidieren oder Validieren angeklickt und bestätigt wurde, zeigt die Zeitauswahl die jeweiligen Zeitbereiche mit roten Markierungen an:
Außerdem wird die Schaltfläche Vorhersagedaten neu berechnen sichtbar. Diese Schaltfläche muss angeklickt werden, um die Vorhersagedaten mit den geänderten Werten zu berechnen:
Ziele
Eine spezielle Art von Alarm Limit , die in der SKOOR Engine verfügbar ist, heißt Ziel . Der Zweck besteht darin, eine Ziellinie in einem Werteverlauf eines Dashboards anzuzeigen. Um einen Zielwert festzulegen, klicken Sie im Bearbeitungsfenster für Alarmgrenzen auf die Registerkarte Ziele:
Klicken Sie auf die Schaltfläche + und wählen Sie einen der verfügbaren Werte aus der Dropdown-Liste aus. Danach kann im entsprechenden Feld der gewünschte Wert eingestellt werden, im obigen Beispiel 5000. Das folgende Werteverlaufs-Widget zeigt das konfigurierte Ziel als gepunktete Linie, beginnend mit dem Zeitpunkt, zu dem es konfiguriert wurde. Ziele sind wie Alarmgrenzen zeitabhängig. So können Wertverläufe immer mit ihren Alarmgrenzen und Zielwerten zu einem bestimmten Zeitpunkt angezeigt werden.