Skip to content

Nagios, Parent Hosts, and traceroute on the Internet

Nagios has the - very useful - feature of "parent hosts". If it deems a host A being down, it first checks its parent host, B, and reports A only as down if B is up. This goes back recursively until a host with state "up" is found and only the first "down" host is actually reported. This keeps on-call people from being bombed with alerts in case of major network outages and makes sure that the alerts that are actually sent out do reasonably accurately describe the actual outage.

As an individual who has some "external" servers in various data centers on the Internet, I would like to not be alerted multiple times that my servers at ISP C, D, and E are down if there is an outage at the ISP F hosting my Nagios installation or at one of the various exchange points temporarily rendering the servers unreachable (without me being able to do anything).

The solution sounds easy but is surprisingly hard.

Continue reading "Nagios, Parent Hosts, and traceroute on the Internet"

Automatisierter UMTS-Fallback mit Nagios

$ ping 10.8.0.11
PING 10.8.0.11 (10.8.0.11) 56(84) bytes of data.
64 bytes from 10.8.0.11: icmp_seq=1 ttl=63 time=79.6 ms
64 bytes from 10.8.0.11: icmp_seq=2 ttl=63 time=79.5 ms
64 bytes from 10.8.0.11: icmp_seq=3 ttl=63 time=79.7 ms
<ethernetkabel wird gezogen>
64 bytes from 10.8.0.11: icmp_seq=295 ttl=63 time=724 ms
64 bytes from 10.8.0.11: icmp_seq=296 ttl=63 time=1079 ms
64 bytes from 10.8.0.11: icmp_seq=297 ttl=63 time=559 ms

Dies ist das Verhalten meines Netzüberwachungs-Notebooks auf dem zum Management dienenden OpenVPN-Link beim Ziehen des Ethernetkabels. Auf dem Ding läuft eh ein Nagios und es hat zum Verschicken von Warn-SMS aus dem Nagios eine UMTS-Karte. Also habe ich ihm jetzt per Event Handler beigebracht, automatisch einen pppd zu starten, wenn die Gegenstelle des OpenVPN-Tunnels ihren Status nach DOWN wechselt. Und das funktioniert sogar.

Die hohen RTTs nach dem Ziehen des Ethernetkabels kommen übrigens daher, dass in der UMTS-Karte derzeit eine uralte Simyo-SIM steckt, die noch nicht UMTS-fähig ist. Aber die ist bald leer, und dann kommt da auch eine USIM rein.

ping ist boese?

Vermieter von dedizierten Mietservern sind offensichtlich nicht daran interessiert, dass ihre Kunden im Störungsfall in der Lage sind zu diagnostizieren, wo die Störung liegt. Denn sonst wäre es nicht so üblich, auf den Coreroutern nicht auf ICMP echo requests zu antworten. Das ist doof, denn so erzeugt mein Nagios viel mehr Alarme als er müsste.

Bleibt also nur, im Störungfall stets sofort den Anbieter zu nerven - denn er will es offensichtlich so.

P.S. Ich will ein Nagios-Plugin das traceroutes auswerten kann. TTL exceeded verschicken die Corerouter der Serveranbieter nämlich immer.

Recovery pur

Ich sitze hier gerade in einem Vortrag über Open Source im Auswärtigen Amt. Der erste Satz, den ich - knapp zehn Minuten zu spät kommend - auf der Folie sehe, ist "Debian als führendes Betriebssysem".

Auf der nächsten Folie steht dann "Nagios, Munin als Ablösung für HP OpenView". Ich glaube, mein Tag ist gerettet.