Linuxtag - Nagios und Strukturen
Jens Kruse, eCONNEX AG, spricht über Strukturierte Überwachung von Diensten mit Nagios.
Die Vortragsfolien sind von eCONNEX herunterladbar.
Wertung: Guter Ansatz, aber ausbaufähig
Das ist glücklicherweise nicht nur eine simple Einführung in das, was Nagios kann, sondern der Vortrag enthält auch Hinweise über das Design der Überwachungsstruktur.
Gängige Fehler beim Entwurf einer Überwachung sind:
- Nur Host-Überwachung
- Keine Eltern-Kind-Beziehungen
- Flache Hierarchien
- Keine Abhängigkeiten
Deswegen sind die folgenden Entscheidungen zu treffen:
- Netzwerkaufnahme, Abbildung der logischen Netzwerkstruktur mit Eltern/Kind-Beziehungen
- Welche Dienste werden überwacht
- Abhängigkeiten der Dienste untereinander
- Abfrage von überwachenden, aber auch überwachten Rechnern durch Firewall
Beim Design für Alarmierung muss man für jeden Dienst entscheiden, ob einen Alarmierung überhaupt erfolgen soll, an wen und wann. Die Eskalationsstufen sind ebenfalls zu definieren.
Zu kurz kommt leider die Lösung der mir aus meiner Vergangenheit mit Netsaint bekannten Probleme mit multiplen Abhängigkeiten. So kann zum Beispiel in einem Ring eine Störung nicht durch "ping" erkannt werden, da sich das Datenpaket automatisch einen anderen Weg zum Ziel sucht und kein Host "down" geht. In anderen Fällen kann eine Störung in einem wichtigen Dienst wie DNS andere Dienste beeinflussen. Diese Abhängigkeiten konnte man damals bei Netsaint nicht befriedigend in der Konfiguration abbilden, und die sehr hilfreichen Antworten von Jens auf meine Fragen ("Dann muss man das halt sauber designen") tragen nicht dazu bei, mich in den Glauben zu bringen dass diese Herausforderungen inzwischen behoben sind.
Je mehr Gedanken man sich über die Geschichte macht, desto komplexer wird die Lösung, die man eigentlich bauen sollte. Mehrstufige Konzepte - ob nun verteilt, redundant oder failover - sind Herausforderungen, die man heute mit einigem Aufwand bereits realisieren kann, aber noch nicht so wirklich richtig von der Software unterstützt.
Der Vortrag endet mit einem Ausblick darauf, was in den nächsten major releases noch mit Nagios geschehen wird. Es gibt eine relativ klare Roadmap, die Nagios' Schicksal in den nächsten Jahren schon voraussehen lässt. Es gibt viel zu tun, und das Programm wird immer besser.
Schön, dass Jens sich nicht darauf beschränkt hat, die Featureliste vorzulesen, sondern auch aus der Erfahrung gesprochen hat, worauf man achten muss beim Design. Schade, dass nix dabei war, was man sich nicht mit ein bisschen Erfahrung und Hirnschmalz auch selbst hätte denken können.
Comments
Display comments as Linear | Threaded
Andreas Husch on :
Hallo, du warst also dieser "lästige Frager"
Ich persönlich fand die Beantwortung der Fragen auch eher unbefriedigend, daher versuche ich es hier mal:
Das korrekte auflösen von Ringen ist mit einem einfachen Ping natürlich recht schwer möglich, aber auch nicht erforderlich. Mittles des per ICMP ermittelten Host Status möchte man ja nur erkennen ob die Geräte noch antworten, ob einzelne Verbindungen noch online sind kann/sollte man über spezielle Servicechecks (z.B. Interface Status) prüfen.
Service Abhängigkeiten sind schon seit Nagios 1.x definierbar (dependencies.cfg). Dieses Feature nutzt jedoch fast niemand.
Schönen Gruß Andreas
www.nagios-portal.de www.nagvis.org