Modifica del limite di allarme (lavoro)

Limiti di allarme statici

Dopo aver creato un lavoro, è necessario impostare soglie adeguate per rappresentare il suo stato attuale in base ai valori misurati. Si può accedere alla sezione dei limiti di allarme direttamente selezionando Modifica -> Limiti di allarme dall'elenco a discesa di un lavoro o facendo clic su "OK, Modifica limiti di allarme" nella barra degli strumenti dopo aver configurato i dettagli del lavoro:

Alla creazione del lavoro, i limiti di allarme predefiniti sono impostati in base al tipo di lavoro (vedere la sezione Plugin disponibili), ad esempio un nuovo lavoro Icmp ha i seguenti limiti di allarme configurati per impostazione predefinita:

È possibile impostare limiti di allarme separati per ciascuno dei 3 stati Warning, Minor o Major.

Per aggiungere nuove soglie, fare clic sul pulsante +. Se per uno stato specifico sono configurati più limiti di allarme, è possibile impostarne la correlazione scegliendo uno dei pulsanti di opzione qualsiasi o tutti. Quando si seleziona tutti, tutte le soglie devono essere soddisfatte per modificare lo stato del lavoro. Fare clic sul pulsante - per rimuovere una soglia.

Aggiunta di una soglia Minor all'esempio precedente:


In questo esempio l'allarme Minor viene attivato solo se il tempo di andata e ritorno del controllo icmp è stato superiore a 200 ms nelle ultime 3 esecuzioni del lavoro.

Esempi di stati di allarme del lavoro

I seguenti esempi di tracciati della cronologia degli stati mostrano come cambia lo stato di un lavoro per diverse configurazioni dei limiti di allarme e dei relativi contatori. Vengono utilizzati i seguenti colori di stato:

Stessi limiti, contatori in aumento

Configurare il parametro per x volte per definire la frequenza con cui un valore deve essere superiore al limite, affinché un lavoro passi al particolare stato non OK. Al primo valore inferiore al limite, il lavoro torna a OK.

Limiti crescenti, contatori crescenti

Per i valori crescenti, lo stato cambia quando il valore supera di n volte il limite particolare. Lo stesso avviene per i valori decrescenti.

Limiticrescenti, contatori decrescenti

Per i valori crescenti e decrescenti, lo stato cambia quando il valore supera di n volte il limite specifico. Se nessuna condizione è valida, il lavoro torna a OK.

Manutenzioni dipendenti dal valore sui lavori di parsefile

Se un file di input contiene informazioni sullo stato di manutenzione di un certo dispositivo o oggetto, può essere analizzato da un lavoro parsefile sull'oggetto del dispositivo e, in base ai risultati della sequenza di analisi, il lavoro parsefile può essere messo o meno in stato di Manutenzione. I lavori parsefile offrono una soglia di manutenzione aggiuntiva che consente di mettere il lavoro in manutenzione:

Un lavoro in manutenzione propaga il suo stato di manutenzione verso l'alto al suo dispositivo. L'oggetto dispositivo stesso propaga poi lo stato di Manutenzione verso il basso a tutti i suoi lavori.

Limiti di allarme in funzione del tempo

Per impostazione predefinita, le soglie configurate sono sempre attive, il che significa che non viene assegnata alcuna pianificazione specifica. Utilizzando una pianificazione, è possibile configurare soglie dipendenti dal tempo. Ciò è utile nel caso in cui si vogliano stabilire diversi livelli di sensibilità per gli allarmi all'interno o all'esterno dell'orario di lavoro o durante le consuete finestre di manutenzione. Configurando una pianificazione per i limiti di allarme di un lavoro, l'esecuzione del lavoro è ancora regolata dall'intervallo di esecuzione, ma solo il suo stato e quindi la sua funzionalità di allarme dipendono dal tempo.

Per impostare limiti di allarme dipendenti dal tempo, è possibile assegnare una pianificazione a ciascuna voce di limite di allarme. Per prima cosa, fare clic sul pulsante Sfoglia scheduler per cercare l'oggetto scheduler. Tutti gli oggetti di pianificazione esistenti si trovano in /root/Configurazioni/Schedule. Selezionare una o più pianificazioni utilizzando le caselle di controllo, quindi fare clic su Avanti:

Ora le schedulazioni selezionate sono disponibili nell'elenco a discesa di ogni limite di allarme:

Se viene eliminato un oggetto di pianificazione referenziato, il riferimento per la soglia passa a Sempre attivo.

Se la definizione di una pianificazione viene modificata, il limite di allarme in un grafico storico viene visualizzato utilizzando la nuova definizione della pianificazione. Questo vale anche se gli stati corrispondenti sono stati calcolati con la definizione valida prima della modifica. I grafici della cronologia non riflettono la cronologia degli oggetti di configurazione.

Limiti di allarme variabili con fonte di timestamp esterna

I limiti di allarme statici funzionano bene per i sistemi che non prevedono l'interazione umana. In situazioni in cui un timestamp in un file viene aggiornato solo se un umano interviene, il timestamp non verrà regolato nei giorni festivi o nei fine settimana. Un file aggiornato regolarmente durante l'orario di lavoro potrebbe non essere più vecchio di 24 ore, ma potrebbe facilmente essere più vecchio di 60 ore durante il fine settimana, per non parlare di ciò che accade se un giorno festivo è adiacente a un fine settimana. Per gestire queste situazioni si può usare un controllo del timestamp variabile.

Alcuni tipi di plugin (ad esempio i plugin Execute o Parsefile ) supportano la lettura del timestamp da una fonte esterna.

Il timestamp può essere fornito come numero assoluto di secondi a partire da 1.1.970 (tempo dell'epoca UNIX) o come età variabile in secondi. Se si utilizza il primo metodo, il nome dell 'unità può essere definito con la parola magica timestamp e il numero, piuttosto illeggibile, verrà automaticamente trasformato in una stringa leggibile:

La configurazione corrispondente per un limite di allarme variabile è la seguente:

Invece di un limite statico, ad esempio di 1h, si inserisce una stringa speciale come =1h+132. Il segno "=" indica un limite di allarme variabile. La stringa seguente esprime l'età desiderata e il +132 indica l'ID del programma da aggiungere. Per informazioni su come creare una pianificazione, vedere il capitolo Pianificazione e pianificazione di eccezione.

Limiti di allarme adattativi

I limiti di allarme possono essere impostati anche in base alla deviazione standard (σ) o a una deviazione percentuale. I valori misurati da un lavoro possono essere considerati per l'allarme. Questo può essere utile nei casi in cui il valore di un lavoro segue un andamento settimanale più o meno regolare. Ad esempio, l'utilizzo del disco e della CPU su un dispositivo che esegue lavori di backup locale ogni domenica aumenta durante i backup e si stabilizza a livelli normali dopo la fine dei backup. Si desidera riconoscere i casi in cui i valori di utilizzo del disco o della CPU si discostano da questo comportamento normale, ad esempio quando l'utilizzo del disco aumenta in modo significativo quando non sono attive finestre di backup. Un altro esempio di utilizzo dei limiti di allarme adattivi potrebbe essere un sistema di transazioni online che di solito ha un carico elevato durante il giorno e un carico molto basso durante la notte o il fine settimana. I limiti di allarme adattivi possono aiutare a rilevare le anomalie in questo comportamento.

Nei casi in cui è possibile individuare una tendenza più o meno lineare nella cronologia dei valori, ad esempio quando l'utilizzo del disco aumenta continuamente sul volume di un file server, si potrebbe desiderare di essere avvisati con un certo numero di giorni o settimane di anticipo, prima che il livello di utilizzo del disco raggiunga un determinato valore. In questo modo si possono acquistare altri dischi per aumentare il volume di archiviazione.

Gli operatori σ e %, così come le voci Anticipato, possono essere utilizzati per gli scopi sopra descritti:

Non combinare gli operatori di limite di allarme σ o % con la funzione Anticipato (sulla stessa riga di limite di allarme). Utilizzarli su dati che hanno un basso coefficiente di correlazione ma che mostrano tendenze settimanali regolari.

Questi limiti di allarme adattivi possono anche essere combinati con limiti di allarme statici.

Si noti che SKOOR Engine avrà bisogno di un certo tempo per calcolare i dati di previsione. Durante questo lasso di tempo, nella sezione di intestazione dell'interfaccia utente verrà visualizzato il seguente messaggio, purché sia selezionata la scheda Adattiva:

Limiti di allarme con valori previsti

Passare alla scheda Adattiva per visualizzare i valori storici, le serie temporali medie calcolate e i corrispondenti limiti di allarme proiettati nel futuro. L'esempio seguente mostra la scheda Adattiva con gli ultimi 14 giorni di storia dei valori (linea blu) con un andamento quasi perfettamente lineare:

Il coefficiente di correlazione calcolato dai dati è mostrato in cima al grafico. La tendenza dei dati effettivamente misurati è proiettata nel futuro per le prossime 25 settimane. Ciò corrisponde alla linea di tendenza grigia. L'intervallo di tempo nel futuro può essere scelto dal secondo elenco a discesa.

Per l'esempio precedente sono stati impostati i seguenti limiti di allarme:

Si può notare che 1 settimana prima del raggiungimento del valore 240 (come previsto dalla tendenza attuale), il lavoro assumerà lo stato di Warning. Lo stesso vale per gli stati Minor e Major.

Deviazione standard (σ) e deviazione percentuale

Per i valori misurati che non seguono una chiara tendenza lineare, ossia che mostrano un coefficiente di correlazione inferiore, è possibile impostare i limiti di allarme σ o %:

Questo esempio mostra un andamento settimanale con valori significativamente più bassi nei fine settimana. In questi casi non è possibile fare una previsione perché i valori misurati sono distribuiti su un ampio intervallo, ma la scheda Adattiva visualizza questa dispersione e la combina con i limiti di allarme attualmente configurati:

Il grafico della scheda Adattiva può apparire in due modi diversi a seconda della correlazione calcolata. Se il coefficiente di correlazione r è superiore a 0,3, viene utilizzato il calcolo in funzione dell'ora/giorno e viene visualizzato un grafico incentrato sull'andamento come nella sezione Limiti di allarme con valori anticipati. Vengono quindi calcolati coefficienti di correlazione separati per i dati orari e giornalieri. Se è inferiore, il grafico mostra una vista dei limiti di allarme calcolati in base ai soli dati storici (senza previsioni per il futuro), come visto sopra.

Se il valore di Minor dovesse essere anormalmente alto nel fine settimana successivo, ad esempio come nei normali giorni feriali, allora scatterebbe il limite di allarme +2,5 σ e/o +200% e lo stato del lavoro diventerebbe Minor o addirittura Major.

Il lavoro genera un allarme non appena i valori misurati sono al di fuori dei valori previsti calcolati dai dati storici. In pratica, ciò significa che per il calcolo delle statistiche vengono considerate le ultime 5 settimane di dati, con una ponderazione ridotta per le settimane più lontane.

I limiti di allarme possono essere visualizzati anche dalla cronologia dei valori del lavoro. Per maggiori informazioni, consultare la sezione Mostra cronologia valori.

Le singole curve del grafico possono essere nascoste facendo clic sul pulsante rotondo del colore corrispondente. Ad esempio, facendo clic sul pulsante nero Trend si nasconde la linea di tendenza.

Selezione dell'intervallo di tempo

Sotto il grafico, nella scheda Adattiva, è presente una linea temporale dell'intero intervallo di tempo configurato nell'elenco a discesa in cima al grafico (1 settimana in questo esempio). Qui è possibile specificare l'intervallo di tempo da visualizzare nel grafico principale, selezionando un intervallo di tempo con il mouse:


L'intervallo di tempo al di sotto del cursore viene visualizzato come una sezione zommata in alto. Può essere regolato su ciascuna estremità o spostato a sinistra o a destra.

Offset per i limiti di allarme percentuali

A volte il limite di allarme percentuale viene attivato anche se i valori attuali mostrano un andamento molto simile a quello delle settimane precedenti. Ciò accade spesso nei periodi in cui la ripidità della curva dei valori è molto elevata. In questi casi, i limiti di allarme percentuali possono essere migliorati con un offset statico numerico. L'esempio seguente mostra una curva di valore (blu) in cui i limiti di allarme sono stati configurati per lo stato Minor e Major, entrambi con una soglia di -40%, ma il limite di allarme Major è stato configurato con un offset aggiuntivo di 1000. L'offset viene configurato aggiungendolo al valore percentuale con un carattere +.


L'offset spinge la curva rossa della soglia Major di 1000 unità (in questo caso: chiamate) verso il basso, in modo che la soglia Major non venga raggiunta facilmente durante l'inizio ripido del valore crescente.

Limite per i limiti di allarme percentuali

A volte si desidera utilizzare le soglie percentuali, ma si vuole essere sicuri che ci sia comunque un limite massimo rigido a un certo valore. L'esempio seguente mostra una curva di valore (blu) in cui sono stati configurati limiti di allarme per lo stato Minor. Un limite percentuale positivo e uno negativo, ciascuno con un limite rigido di 1000 e 3000 unità rispettivamente. Tali limiti vengono configurati aggiungendo il limite statico al valore percentuale con un carattere >.

Ciò significa che il limite negativo del 40% è impostato su 0 se il limite calcolato è inferiore a 1000 e il limite positivo del 60% è impostato su un minimo di 3000 se il limite calcolato è inferiore a 3000, rispettivamente.

Scheduler per i limiti di allarme adattivi

Poiché i limiti di allarme adattivi cercano di adattare i carichi in base al giorno, può essere necessario tenere conto di anomalie note come le festività. Se un sistema ha un carico elevato ogni venerdì, ma il venerdì santo si ipotizza uncarico molto basso o addirittura nullo, è necessario un modo per insegnare al sistema che il venerdì santo non è un venerdì normale, ma si comporterà come una domenica. A tal fine, è possibile configurare un tipo speciale di pianificazione. Per ulteriori informazioni, consultare la sezione Scheduler per la previsione.

Creare una pianificazione per la previsione:


Nell'esempio seguente, il Venerdì Santo e il Lunedì di Pasqua verranno applicati i limiti di allarme adattivi calcolati in base ai carichi dell'ultima domenica:


Collegare ora questa pianificazione ai lavori con limiti di allarme adattivi, sfogliando e selezionando la pianificazione tramite il menu a tendina Pianificazione per la previsione:


Si possono anche configurare modifiche una tantum ai limiti di allarme, selezionando Una volta invece di Annuale (festività) dall'elenco a discesa Tipo di ripetizione:

Questi parametri di pianificazione possono anche essere combinati con le normali pianificazioni attive all'interno dello stesso oggetto di pianificazione. La figura seguente mostra un esempio di pianificazione attiva che definisce gli orari di lavoro per gli allarmi e specifica che il Venerdì Santo e il Lunedì di Pasqua devono essere considerati come domeniche per il calcolo dei limiti di allarme adattivi:

Correzione dei valori dei lavori con misure errate o mancanti

A volte i valori di un lavoro sono stati alterati da una configurazione errata dei parametri del lavoro (ad esempio, è stato selezionato un valore sbagliato che ha portato a valori estremamente alti o bassi) o perché il lavoro non è stato attivo e non ha effettuato le misurazioni quando avrebbe dovuto. Nell'esempio seguente, un lavoro non effettuava più misurazioni corrette dal 6 ottobre circa. I valori errati hanno un impatto negativo sul calcolo delle statistiche:

In questo caso, i dati possono essere invalidati. Nell'esempio precedente, l'intervallo di tempo tra il 6 e il 14 ottobre sarà invalidato e non sarà più considerato per il calcolo del limite di allarme adattivo.

L'intervallo di tempo richiesto può essere specificato nel selettore temporale sotto il grafico:

Sotto il selettore saranno visibili due pulsanti, uno per invalidare e uno per convalidare i dati nell'intervallo di tempo selezionato:

Dopo aver fatto clic su Invalida o Convalida e aver confermato, il selettore temporale mostra i rispettivi intervalli temporali con segni rossi:

Inoltre, diventa visibileil pulsanteRicalcola dati previsionali. Questo pulsante deve essere cliccato per calcolare i dati di previsione con i valori modificati:

Obiettivi

Un tipo speciale di limite di allarme disponibile nello SKOOR Engine è chiamato Target. Lo scopo è quello di visualizzare una linea target nella cronologia dei valori di un cruscotto. Per impostare un valore target, fare clic sulla scheda Target nella finestra di modifica dei limiti di allarme:

Fare clic sul pulsante + e scegliere uno dei valori disponibili dal menu a tendina. Successivamente, è possibile impostare il valore desiderato nel rispettivo campo, 5000 nell'esempio precedente. Il seguente widget della cronologia dei valori mostra il target configurato come linea tratteggiata, a partire dal momento in cui è stato configurato. I target, come i limiti di allarme, dipendono dal tempo. In questo modo, le cronologie dei valori possono essere sempre visualizzate con i limiti di allarme e i target che avevano in un determinato momento.