Blog

Überwachung der IT-Landschaft und deren Applikationen

Überwachung der IT-Landschaft und deren Applikationen

26.05.2023 | Blog

 

 

Überwachung der IT-Landschaft und deren Applikationen mit Hilfe von Cacti

Über Cacti

Cacti bietet ein robustes und erweiterbares Rahmenwerk für die Betriebsüberwachung und das Fehlermanagement für Benutzer in aller Welt. Cacti ist auch eine vollständige Lösung für die Netzwerkgrafik, die die Leistungsfähigkeit der Datenspeicher- und Grafikfunktionen von RRDTool nutzt.

Bsp.: CPU-Überwachung einer Windows VM mit 12 logischen CPUs

Cacti enthält ein vollständig verteiltes und fehlertolerantes Datenerfassungs-Framework, fortschrittliche, auf Vorlagen basierende Automatisierungsfunktionen für Geräte, Graphen und Bäume, mehrere Datenerfassungsmethoden, die Möglichkeit, durch Plugins erweitert zu werden, rollenbasierte Benutzer-, Gruppen- und Domänenverwaltungsfunktionen sowie eine Theming-Engine und Unterstützung für mehrere Sprachen – und das alles sofort nach dem Auspacken.

Bsp. Netzwerkverkehr-Überwachung einer Netztwerkkarte

All dies ist in einer intuitiven, einfach zu bedienenden Benutzeroberfläche verpackt, die sich für Installationen in LAN-Größe bis hin zu komplexen Netzwerken mit Zehntausenden von Geräten eignet.

Auch wir als 3e haben Cacti bereits seit mehreren Jahren in vielen unserer Kundenprojekten implementiert. Das Schöne an Cacti ist u.a. die recht übersichtliche und logische Gestaltung sowie die Plattformunabhängigkeit. Cacti wird unter der GNU General Public License veröffentlicht.

Bsp.: Überwachung eines Disklaufwerkes

Bsp.: Überwachung eines Windows Services

 

Heute stellen wir ein Beispiel vor, wie für eine kritische Finanzmanagement Software (Simcorp Dimension), die wichtigen sogenannten „SCD Service Services“ überwacht werden können und im Fehlerfall ein Alarm, mit E-Mail Versand an den 1st Level Support, ausgelöst werden kann.

Überwachung der Simcorp Dimension (SCD) Server Services

SCD benötigt für die tägliche Verarbeitung aller Daten verschiedene Services. Hierbei handelt es sich nicht um Windows Services sondern um spezielle Applikations-Services, wie z.B. Kalkulations-Services, WMI-Services, STP-Services und viele weitere.

Verschiedene Arten von SCD Services

Fällt hier ein Service unbemerkt aus, dann könnte das enorme finanzielle Folgen mit sich ziehen, sofern der Ausfall nicht rechtzeitig bemerkt werden würde. Um dies zu verhindern, verwenden wir hier u.a. eine mit Cacti implementierte Lösung.

Was wird alles benötigt? Zunächst benötigen wir für die spätere Darstellung in Cacti, standardmäßig die notwendigen Templates, wie Data Source, Graph und Data Collection. Die minütlich folgende Abfrage der einzelnen SCD Server Services erfolgt mittels eines WMI-Scriptes. Zusätzlich sind in diesem Script geplante Downtime Zeiten berücksichtigt, so dass es NICHT zu ungewollten Alarmen kommen kann.

Damit Cacti die gelieferten Daten auswerten kann und im Fehlerfall auch reagieren kann, wird zusätzlich das Plug-In „Threshold“ für Cacti benötigt. Mit diesem Plug-In lassen sich einfach Threshold Werte festlegen, die letztendlich auch einen Alarm auslösen können bzw. werden.

Bsp.: 1 – SCD Service „…SVC07“ – Fehler nach geplanter Downtime

Für diesen Service ist eine geplante Downtime von MO-FR sowie SA + SO notwendig. Von MO-FR ist dies von 00:30 – 04:50. Da der überwachte Service in unserem Beispiel nicht rechtzeitig „online“ war, hat Cacti dies um 04:50 erkannt und die Alertstufe wurde auf „1“ gesetzt. Dies hat zur Folge, dass der Zustand zunächst in ein „Warning“-Modus geschaltet wird. Bestätigt sich der Alert, wird der „Alert“-Modus ausgelöst und es erfolgt eine E-Mail Benachrichtung an den 1st Level Support.

Bsp.: 1 – SCD Service „…SVC07“

Threshold Log Overview

 

Auf einen automatisierten Re-Start des SCD Server Service wird mit Absicht verzichtet (generell wäre das auch möglich), da zunächst die Ursache gefunden werden muss. Denn evtl. müssen Aktionen innerhalb der Applikation durchgeführt werden, bevor der SCD Server Service erneut gestartet werden darf. Erst danach wird der SCD Server Service manuell wieder gestartet und Cacti setzt den Alert-zustand für dieses Ereignis automatisch wieder zurück (auf Grün).

 

Bsp.: 2 – SCD Service „…SVC05“ – erfolgreicher Start nach Downtime

Bsp. 2 zeigt, das erfolgreiche Starten eines ähnlichen SCD Server Services mit gleicher geplanter Downtime Zeiten. Da der Service innerhalb der „erlaubten“ Zeit wieder gestartet wurde, erfolgt kein Alarm.

Bsp.: 2 – SCD Service „…SVC05“

 

Bsp.: 3 – mehrere SCD Server Services mit gleichem Service Namen, hier „SVC01“

Dieses Beispiel zeigt, dass auch die Überwachung mehrerer SCD Server Services mit gleichen Namen möglich ist. Der Servicename „SVC01“ ist auf Grund seiner Funktion in mehreren SCD Server Services aufgeteilt. Hier werden für eine Kalkulation 28 SCD Server Services mit gleichen Namen benötigt. Bei Ausfall nur eines SCD Server Services würde Cacti dies sofort über die definierten Alert-Stufen eskalieren und den 1st Level Support per E-Mail benachrichtigen.

Bsp.: 3 – mehrere SCD Server Services mit gleichen Service Namen

Konnten wir Ihr Interesse wecken? Sprechen Sie uns gerne an. Erreichbar sind wir am besten über unsere Kontakt-Seite.

Euer 3e Team