Statische Alarm Limits

Nach dem Anlegen eines Auftrags sollten geeignete Grenzwerte festgelegt werden, die den aktuellen Status des Auftrags in Abhängigkeit von den Messwerten darstellen. Der Abschnitt Alarm Limits kann direkt durch Auswahl von Edit -> Alarm Limits aus der Dropdown-Liste eines Auftrags oder durch Klicken auf "OK, Edit Alarm Limits" in der Symbolleiste, nachdem die Auftragsdetails konfiguriert wurden, aufgerufen werden:

Bei der Auftragserstellung werden je nach Auftragstyp Standard Alarm Limits gesetzt (siehe Abschnitt Verfügbare Plugins), z. B. sind für einen neuen Icmp-Auftrag die folgenden Alarm Limits standardmäßig konfiguriert:

Für jeden der 3 Zustände Warning, Minor oder Major können eigene Alarm Limits festgelegt werden.

Um neue Grenzwerte hinzuzufügen, klicken Sie auf die Schaltfläche +. Wenn mehr als ein Alarm Limit für einen bestimmten Status konfiguriert ist, stellen Sie deren Korrelation ein, indem Sie eine der Optionsschaltflächen any oder all wählen. Wenn alle ausgewählt ist, müssen alle Schwellenwerte erfüllt sein, um den Status des Auftrags zu ändern. Klicken Sie auf die Schaltfläche -, um einen Schwellenwert zu entfernen.

Hinzufügen eines zusätzlichen Minor-Schwellenwerts zum obigen Beispiel:

In diesem Beispiel wird ein Minor-Alarm nur dann ausgelöst, wenn die Round Trip Time der icmp-Prüfung bei den letzten 3 Job-Ausführungen über 200 ms lag.

Beispiele für Job-Alarmzustände

Die folgenden Beispiele zeigen, wie sich der Status eines Auftrags bei verschiedenen Konfigurationen von Alarm Limits und deren Zählern ändert. Es werden die folgenden Zustandsfarben verwendet:

Gleiche Grenzwerte, steigende Zähler

Konfigurieren Sie den Parameter for x times, um festzulegen, wie oft ein Wert über dem Grenzwert liegen muss, damit ein Auftrag in den Zustand not OK übergeht. Beim ersten Wert unter dem Grenzwert geht der Auftrag wieder in den Zustand OK über.

Steigende Grenzwerte, steigende Zähler

Bei steigenden Werten ändert sich der Zustand, wenn der Wert n-mal über dem jeweiligen Grenzwert liegt. Das Gleiche gilt für abnehmende Werte.

Steigende Grenzwerte, sinkende Zähler

Bei steigenden und fallenden Werten ändert sich der Status, wenn der Wert n-mal über dem jeweiligen Grenzwert liegt. Wenn keine Bedingung erfüllt ist, kehrt der Auftrag zu OK zurück.

Wertabhängige Wartung von Parsefile-Aufträgen

Wenn eine Eingabedatei Informationen über den Wartungszustand eines bestimmten Geräts oder Objekts enthält, kann diese von einem Parsefile-Job auf dem Geräteobjekt geparst werden und je nach Ergebnis der Parse-Sequenz kann der Parsefile-Job in den Wartungszustand versetzt werden oder nicht. Parsefile-Jobs bieten einen zusätzlichen Wartungsschwellenwert, der es ermöglicht, den Job in den Wartungszustand zu versetzen:

Ein Job, der sich im Wartungszustand befindet, überträgt seinen Wartungszustand nach oben auf sein Gerät. Das Geräteobjekt selbst überträgt den Wartungszustand dann nach unten an alle seine Jobs.

Zeitabhängige Alarm Limits

Standardmäßig sind die konfigurierten Schwellenwerte immer aktiv, was bedeutet, dass kein spezifischer Zeitplan zugewiesen ist. Mit Hilfe eines Zeitplans können zeitabhängige Schwellenwerte konfiguriert werden. Dies ist nützlich, wenn man unterschiedliche Empfindlichkeitsstufen für die Alarmierung innerhalb oder außerhalb der Betriebszeiten oder während der üblichen Wartungsfenster festlegen möchte. Durch die Konfiguration eines Zeitplans für die Alarm Limits eines Jobs wird die Ausführung des Jobs weiterhin durch sein Ausführungsintervall bestimmt, nur sein Zustand und damit seine Alarmierungsfunktionalität sind zeitabhängig.

Um zeitabhängige Alarm Limits zu setzen, kann jedem Alarm Limit Eintrag ein Zeitplan zugewiesen werden. Klicken Sie zunächst auf die Schaltfläche Zeitplan durchsuchen, um nach dem Zeitplanobjekt zu suchen. Alle vorhandenen Zeitplanobjekte finden Sie unter /root/Konfigurationen/Zeitplan. Wählen Sie einen oder mehrere Zeitpläne über die Kontrollkästchen aus und klicken Sie dann auf Weiter:

Die ausgewählten Zeitpläne sind nun in der Dropdown-Liste für jedes Alarm Limit verfügbar:

Wenn ein referenziertes Zeitplanobjekt gelöscht wird, ändert sich der Verweis für den Schwellenwert in Immer aktiv.

Wenn die Definition eines Zeitplans geändert wird, wird das Alarm Limit in einer Verlaufsdarstellung unter Verwendung der neuen Definition des Zeitplans angezeigt. Dies gilt, obwohl die entsprechenden Zustände mit der vor der Änderung gültigen Definition berechnet wurden. History Plots spiegeln nicht die Historie von Konfigurationsobjekten wider.

Variable Alarm Limits mit externer Zeitstempelquelle

Statische Alarm Limits eignen sich gut für Systeme, die keine menschliche Interaktion erfordern. In Situationen, in denen ein Zeitstempel in einer Datei nur aktualisiert wird, wenn ein Mensch eingreift, wird der Zeitstempel an Feiertagen oder Wochenenden nicht angepasst. Eine Datei, die während der Geschäftszeiten regelmäßig aktualisiert wird, darf nicht älter als 24 Stunden sein, kann aber an einem Wochenende leicht älter als 60 Stunden sein - ganz zu schweigen davon, was passiert, wenn ein Feiertag an ein Wochenende angrenzt. Um solche Situationen zu bewältigen, kann eine variable Zeitstempelprüfung verwendet werden.

Einige Plugin-Typen (z. B. die Plugins Execute oder Parsefile ) unterstützen das Lesen des Zeitstempels aus einer externen Quelle.

Der Zeitstempel kann als absolute Anzahl von Sekunden seit 1.1.970 (UNIX-Epochenzeit) oder als variables Alter in Sekunden angegeben werden. Wird die erste Methode verwendet, kann der Name der Einheit mit dem magischen Wort timestamp definiert werden, und die eher unleserliche Zahl wird automatisch in eine für Menschen lesbare Zeichenkette umgewandelt:

Die entsprechende Konfiguration für ein variables Alarm Limit sieht wie folgt aus:

Anstelle eines statischen Grenzwertes von z.B. 1h wird ein spezieller String wie =1h+132 eingegeben. Das "="-Zeichen kennzeichnet ein variables Alarm Limit. Die folgende Zeichenkette drückt das gewünschte Alter aus und die +132 gibt die ID des hinzuzufügenden Zeitplans an. Siehe Kapitel Zeitplan und Ausnahmeplan für Informationen über die Erstellung eines Zeitplans.

Adaptive Alarm Limits

Alarm Limits können auch auf der Basis der Standardabweichung (σ) oder einer prozentualen Abweichung festgelegt werden. Die von einem Auftrag gemessenen Werte können für die Alarmierung berücksichtigt werden. Dies kann in Fällen nützlich sein, in denen der Wert eines Jobs einem mehr oder weniger regelmäßigen wöchentlichen Trend folgt. Zum Beispiel steigen die Festplatten- und CPU-Auslastung auf einem Gerät, das jeden Sonntag lokale Backup-Jobs ausführt, während der Backups an und pendeln sich nach Abschluss der Backups auf ein normales Niveau ein. Man möchte die Fälle erkennen, in denen die Festplatten- oder CPU-Nutzungswerte von diesem normalen Verhalten abweichen, z. B. wenn die Festplattennutzung erheblich ansteigt, obwohl keine Backup-Fenster aktiv sind. Ein weiteres Beispiel für den Einsatz adaptiver Alarm Limits könnte ein Online-Transaktionssystem sein, das normalerweise tagsüber eine hohe Auslastung und nachts oder am Wochenende eine sehr geringe Auslastung aufweist. Adaptive Alarm Limits können helfen, Anomalien in diesem Verhalten zu erkennen.

In Fällen, in denen ein mehr oder weniger linearer Trend in einem Werteverlauf zu erkennen ist, z. B. wenn die Festplattennutzung auf einem Dateiserver kontinuierlich ansteigt, möchte man vielleicht eine bestimmte Anzahl von Tagen oder Wochen im Voraus benachrichtigt werden, bevor die Festplattennutzung einen bestimmten Wert erreicht. Dann kann man einfach zusätzliche Festplatten kaufen, um das Speichervolumen zu vergrößern.

Die Operatoren σ und % sowie das Element Anticipated können für die oben genannten Zwecke verwendet werden:

Kombinieren Sie die Operatoren σ oder % Alarm Limit nicht mit der Funktion Anticipated (in derselben Alarm Limit Zeile). Verwenden Sie sie für Daten, die einen niedrigen Korrelationskoeffizienten haben, aber regelmäßige wöchentliche Trends aufweisen.

Diese adaptiven Alarm Limits können auch mit statischen Alarm Limits kombiniert werden.

Bitte beachten Sie, dass SKOOR Engine einige Zeit benötigt, um die Vorhersagedaten zu berechnen. Während dieser Zeit wird die folgende Meldung im Kopfbereich der Benutzeroberfläche angezeigt, solange die Registerkarte Adaptiv ausgewählt ist:

Alarm Limits mit Vorhersagewerten

Wechseln Sie zur Registerkarte Adaptiv, um die Verlaufswerte, die berechneten mittleren Zeitreihen und die entsprechenden, in die Zukunft projizierten Alarm Limits zu sehen. Das folgende Beispiel zeigt die Registerkarte Adaptiv mit den letzten 14 Tagen eines Werteverlaufs (blaue Linie) mit einem nahezu perfekt linearen Trend:

Der aus den Daten berechnete Korrelationskoeffizient wird oben in der Grafik angezeigt. Der Trend der tatsächlich gemessenen Daten wird für die nächsten 25 Wochen in die Zukunft projiziert. Dies entspricht der grauen Trendlinie. Der Zeitbereich in die Zukunft kann aus der zweiten Dropdown-Liste gewählt werden.

Für das obige Beispiel wurden die folgenden Alarm Limits eingestellt:

Man sieht, dass der Job 1 Woche vor Erreichen des Wertes 240 (wie vom aktuellen Trend erwartet) den Zustand Warning annimmt. Das Gleiche gilt für die Zustände Minor und Major.

Standardabweichung (σ) und prozentuale Abweichung

Für Messwerte, die keinem so eindeutigen linearen Trend folgen, d. h. einen niedrigeren Korrelationskoeffizienten aufweisen, können σ- oder %-Alarm Limits festgelegt werden:

Dieses Beispiel zeigt ein wöchentliches Muster mit deutlich niedrigeren Werten an Wochenenden. In solchen Fällen ist eine Vorhersage nicht möglich, da die Messwerte über einen großen Bereich gestreut sind, aber die Registerkarte Adaptiv visualisiert diese Streuung und kombiniert sie mit den aktuell konfigurierten Alarm Limits:

Die Grafik auf der Registerkarte Adaptiv kann je nach berechneter Korrelation auf zwei verschiedene Arten erscheinen. Wenn der Korrelationskoeffizient r größer als 0,3 ist, wird die stunden-/tagsabhängige Berechnung verwendet und eine trendorientierte Grafik wie im Abschnitt Alarm Limits mit erwarteten Werten angezeigt. Anschließend werden separate Korrelationskoeffizienten für stündliche und tägliche Daten berechnet. Ist der Korrelationskoeffizient niedriger, zeigt das Diagramm eine Ansicht der berechneten Alarm Limits, die nur auf historischen Daten basieren (ohne Vorhersage für die Zukunft), wie oben zu sehen.

Sollte der Zufallswert am nächsten Wochenende ungewöhnlich hoch sein, z. B. so hoch wie an normalen Wochentagen, würde dies entweder das +2,5 σ- und/oder das +200% Alarm Limit auslösen und der Status des Jobs würde Minor oder sogar Major werden.

Der Job erzeugt einen Alarm, sobald die gemessenen Werte außerhalb der aus den historischen Daten errechneten Prognosewerte liegen. In der Praxis bedeutet dies, dass die Daten der letzten 5 Wochen für die Berechnung der Statistik herangezogen werden, wobei länger zurückliegende Wochen weniger stark gewichtet werden.

Die Alarm Limits können auch in der Wertehistorie des Auftrags eingesehen werden. Siehe Abschnitt Werteverlauf anzeigen für weitere Informationen.

Einzelne Kurven im obigen Diagramm können durch Anklicken der runden Schaltfläche mit der entsprechenden Farbe ausgeblendet werden. Wenn Sie z. B. auf die schwarze Schaltfläche Trend klicken, wird die Trendlinie ausgeblendet.

Auswählen des Zeitbereichs

Unterhalb des Diagramms auf der Registerkarte Adaptiv befindet sich eine Zeitleiste mit dem gesamten Zeitbereich, der in der Dropdown-Liste über dem Diagramm konfiguriert wurde (in diesem Beispiel 1 Woche). Hier kann man den Zeitbereich festlegen, der im Hauptdiagramm angezeigt werden soll, indem man mit der Maus einen Zeitbereich auswählt:

Der Zeitbereich unterhalb des Cursors wird als gezoomter Abschnitt oben angezeigt. Er kann an jedem Ende angepasst oder nach links oder rechts verschoben werden.

Offset für prozentuale Alarm Limits

Manchmal wird das prozentuale Alarm Limit auch dann ausgelöst, wenn die aktuellen Werte einen sehr ähnlichen Trend aufweisen wie in den vergangenen Wochen. Dies ist häufig in Zeiten der Fall, in denen die Steilheit der Wertekurve sehr hoch ist. In solchen Fällen können die prozentualen Alarm Limits um einen numerischen statischen Offset erweitert werden. Das folgende Beispiel zeigt eine Wertkurve (blau), bei der Alarm Limits für Minor und Major konfiguriert wurden, beide mit einem Schwellenwert von -40%, aber das Major Alarm Limit wurde mit einem zusätzlichen Offset von 1000 konfiguriert. Der Offset wird konfiguriert, indem er mit einem +-Zeichen an den prozentualen Wert angehängt wird.

Der Offset verschiebt die rote Major-Schwellenwertkurve um 1000 Einheiten (in diesem Fall: Aufrufe) nach unten, so dass die Major-Schwelle während des steilen Anstiegs des Wertes nicht so leicht erreicht wird.

Limit für prozentuale Alarm Limits

Manchmal möchte man prozentuale Schwellenwerte verwenden, aber sicherstellen, dass es trotzdem eine harte Obergrenze bei einem bestimmten Wert gibt. Das folgende Beispiel zeigt eine Wertkurve (blau), bei der Alarm Limits für den Zustand Minor konfiguriert wurden. Ein positiver und ein negativer prozentualer Grenzwert mit jeweils einer harten Grenze von 1000 bzw. 3000 Einheiten. Solche Grenzwerte werden konfiguriert, indem der statische Grenzwert mit einem >-Zeichen an den prozentualen Wert angehängt wird.

Das bedeutet, dass der negative Grenzwert von 40 % auf 0 gesetzt wird, wenn der berechnete Grenzwert unter 1000 liegen würde, und der positive Grenzwert von 60 % auf ein Minimum von 3000 gesetzt wird, wenn der berechnete Grenzwert unter 3000 liegen würde.

Scheduler für adaptive Alarm Limits

Da adaptive Alarm Limits versuchen, die tagesabhängige Last anzupassen, kann es notwendig sein, bekannte Anomalien wie Feiertage zu berücksichtigen. Wenn ein System jeden Freitag eine hohe Last hat, aber am Karfreitag eine sehr niedrige Last oder sogar gar keine Last angenommenwird, muss es eine Möglichkeit geben, dem System beizubringen, dass der Karfreitag kein normaler Freitag ist, sondern sich wie ein Sonntag verhalten wird. Um dies zu erreichen, kann eine spezielle Art von Zeitplan konfiguriert werden. Weitere Informationen finden Sie im Abschnitt Zeitplan für die Vorhersage.

Erstellen Sie einen Zeitplan für die Vorhersage:

Im folgenden Beispiel werden am Karfreitag und Ostermontag die adaptiven Alarm Limits, die aus den letzten Sonntagslasten berechnet wurden, angewendet:

Verknüpfen Sie nun diesen Zeitplan mit Aufträgen mit adaptiven Alarm Limits, indem Sie den Zeitplan über das Dropdown-Menü Zeitplan für Vorhersage suchen und auswählen:

Sie können auch einmalige Änderungen der Alarm Limits konfigurieren, indem Sie Einmalig statt Jährlich (Feiertag) in der Dropdown-Liste Wiederholungstyp auswählen:

Diese Zeitplanparameter können auch mit normalen aktiven Zeitplänen innerhalb desselben Zeitplanobjekts kombiniert werden. Die folgende Abbildung zeigt ein Beispiel für einen aktiven Zeitplan, der die Geschäftszeiten für die Alarmierung festlegt und außerdem angibt, dass Karfreitag und Ostermontag bei der Berechnung der adaptiven Alarm Limits als Sonntage zu werten sind:

Korrigieren von Auftragswerten mit falschen oder fehlenden Messungen

Manchmal wurden die Werte eines Auftrags durch eine falsche Konfiguration der Auftragsparameter verfälscht (z. B. wurde ein falscher Wert gewählt, was zu extrem hohen oder niedrigen Werten führte) oder der Auftrag war nicht aktiv und hat nicht gemessen, als er hätte gemessen werden müssen. Im folgenden Beispiel hat ein Job seit etwa dem 6. Oktober keine korrekten Messungen mehr durchgeführt. Die falschen Werte wirken sich negativ auf die Statistikberechnung aus:

In einem solchen Fall können Daten für ungültig erklärt werden. Im obigen Beispiel wird der Zeitraum zwischen dem 6. und 14. Oktober für ungültig erklärt und bei der Berechnung des adaptiven Alarm Limits nicht mehr berücksichtigt.

Der gewünschte Zeitbereich kann in der Zeitauswahl unterhalb des Diagramms angegeben werden:

Unter dem Selektor werden zwei Schaltflächen angezeigt, eine zum Ungültigmachen und eine zum Bestätigen der Daten im ausgewählten Zeitbereich:

Nachdem Invalidieren oder Validieren angeklickt und bestätigt wurde, zeigt der Zeitselektor die entsprechenden Zeitbereiche mit roten Markierungen an:

Außerdem wird die SchaltflächeNeuberechnung der Vorhersagedaten sichtbar. Diese Schaltfläche muss angeklickt werden, um die Vorhersagedaten mit den geänderten Werten zu berechnen:

Zielvorgaben

Ein spezieller Typ von Alarm Limit, der in der SKOOR Engine verfügbar ist, heißt Target. Sie dient dazu, eine Ziellinie in einem Werteverlauf eines Dashboards anzuzeigen. Um einen Zielwert festzulegen, klicken Sie auf die Registerkarte Ziele im Bearbeitungsfenster der Alarm Limits:

Klicken Sie auf die Schaltfläche + und wählen Sie einen der verfügbaren Werte aus dem Dropdown-Menü. Danach kann der gewünschte Wert in das entsprechende Feld eingegeben werden, im obigen Beispiel 5000. Das folgende Werteverlaufs-Widget zeigt den konfigurierten Zielwert als gepunktete Linie an, beginnend mit dem Zeitpunkt, an dem er konfiguriert wurde. Zielwerte sind, wie auch Alarm Limits, zeitabhängig. Auf diese Weise können Werteverläufe immer mit ihren Alarm Limits und Zielen angezeigt werden, die sie zu einem bestimmten Zeitpunkt hatten.

Dokumentation

Alarm Limit bearbeiten (Job)