Zum Inhalt springen
Zurück zum Blog
Veröffentlicht am 20. März 20267 Min. Lesezeit

Netzwerkdiagnose für DevOps: Fehlersuche-Leitfaden

Wie DevOps-Teams Traceroute-, Ping- und DNS-Tools nutzen, um die Konnektivität in Multi-Region-Bereitstellungen zu debuggen.

devopsdiagnosticstroubleshooting

Warum Netzwerkdiagnosen für DevOps wichtig sind

In modernen Infrastrukturen erstrecken sich Anwendungen über mehrere Cloud-Regionen, verlassen sich auf Drittanbieter-APIs und bedienen Benutzer weltweit. Wenn etwas kaputt geht, ist die Frage selten ob das Netzwerk beteiligt ist — es ist wo im Netzwerk das Problem liegt. DevOps-Ingenieure, die Netzwerkprobleme systematisch diagnostizieren können, lösen Vorfälle schneller, schreiben bessere Postmortems und bauen widerstandsfähigere Systeme.

Dieser Leitfaden behandelt einen praktischen diagnostischen Workflow, häufige Fehlerbilder in Cloud- und Multi-Region-Umgebungen und wie man Netzwerktests in Ihre Abläufe integriert.

Der diagnostische Workflow

Wenn ein Dienst nicht erreichbar oder langsam ist, folgen Sie diesem systematischen Ansatz. Jeder Schritt verengt den Problembereich:

Schritt 1: Grundlegende Konnektivität überprüfen (Ping)

Beginnen Sie einfach. Können Sie den Host überhaupt erreichen?

ping -c 10 api.example.com

Wenn Ping funktioniert, haben Sie IP-Konnektivität und DNS-Auflösung. Beachten Sie die Latenz — ist sie für die geografische Entfernung normal? Verwenden Sie TraceMapper Ping, um von mehreren Standorten gleichzeitig zu testen. Wenn Ping fehlschlägt, könnte das Problem DNS, Routing, Firewall oder der Host sein, der nicht erreichbar ist. Gehen Sie zu den nächsten Schritten über.

Schritt 2: Den Pfad verfolgen (Traceroute)

Wenn die Latenz hoch oder die Konnektivität intermittierend ist, verfolgen Sie den Pfad:

mtr -rwbzc 100 api.example.com

Dies führt mtr mit 100 Proben aus und zeigt die Latenz hop-by-hop, Paketverluste und ASN-Informationen an. Achten Sie auf:

  • Paketverluste an einem bestimmten Hop, die bis zum Ziel durchschlagen — das ist ein echtes Problem, nicht nur ICMP-Ratenbegrenzung.
  • Unerwartete geografische Umwege — Datenverkehr, der durch entfernte Regionen geht, anstatt einen direkten Weg zu nehmen.
  • ASN-Übergänge — identifizieren Sie, wo der Datenverkehr das Netzwerk Ihres Cloud-Anbieters verlässt und ins öffentliche Internet eintritt, was oft der Ort ist, an dem Probleme auftreten.

Verwenden Sie TraceMapper, um visuelle Traceroutes von mehreren Quellstandorten auszuführen — dies ist für Multi-Region-Dienste, bei denen der Pfad je nach Region unterschiedlich ist, unerlässlich.

Schritt 3: DNS-Auflösung überprüfen

DNS-Fehler gehören zu den häufigsten Ursachen für Ausfälle. Überprüfen Sie die Auflösung von mehreren Standorten:

dig +short api.example.com @8.8.8.8

Überprüfen Sie auf: veraltete zwischengespeicherte Einträge, Verzögerungen bei der Verbreitung nach DNS-Änderungen, NXDOMAIN-Antworten und hohe DNS-Abfrage-Latenz. Verwenden Sie TraceMapper DNS Lookup, um mehrere Resolver und Datensatztypen gleichzeitig abzufragen.

Schritt 4: HTTP-Konnektivität testen

Der Host ist erreichbar und DNS löst auf, aber die Anwendung reagiert nicht? Testen Sie auf HTTP-Ebene:

curl -o /dev/null -s -w "HTTP %{http_code} in %{time_total}s\n" https://api.example.com/health

Dies zeigt Probleme mit dem TLS-Handshake, HTTP-Fehler (502, 503, 504), langsame Anwendungsantworten im Vergleich zu langsamen Netzwerken und Weiterleitungsketten, die Latenz hinzufügen. Unser HTTP Check-Tool führt diese Analyse mit detaillierten Zeitaufstellungen durch.

Schritt 5: Portzugänglichkeit überprüfen

Wenn HTTP-Checks fehlschlagen, überprüfen Sie, ob der Port offen ist. Ein geschlossener oder gefilterter Port weist auf eine Firewall-Regel, eine Fehlkonfiguration der Sicherheitsgruppe oder den Dienst hin, der nicht lauscht:

nc -zv api.example.com 443

Testen Sie von mehreren Netzwerken — ein Port kann von innerhalb eines VPC offen sein, aber vom öffentlichen Internet gefiltert werden. Verwenden Sie TraceMapper Port Check, um von externen Standorten zu testen.

Häufige Netzwerkprobleme in Cloud-Umgebungen

DNS-Auflösungsfehler

Cloud-DNS (Route 53, Cloud DNS, Azure DNS) kann fehlschlagen oder veraltete Einträge zurückgeben. Häufige Ursachen: TTL zu niedrig eingestellt, was übermäßige Abfragen verursacht, Fehler bei der DNS-Zonendelegation nach der Migration, Split-Horizon-DNS, das interne IPs an externe Clients zurückgibt. Überwachen Sie immer die DNS-Auflösung von externen Blickwinkeln.

Routing-Änderungen und BGP-Probleme

BGP-Routenlecks und -Hijacks können den Datenverkehr über unerwartete Pfade umleiten. Nach einem größeren Vorfall eines Cloud-Anbieters oder ISP führen Sie Traceroutes aus, um zu überprüfen, ob Ihre Datenverkehrspfade wieder normal sind. Verwenden Sie TraceMapper BGP Lookup, um ASN- und Präfixinformationen zu überprüfen.

Peering-Stau

Datenverkehr zwischen Cloud-Anbietern (z. B. AWS zu GCP) oder zwischen einem Cloud-Anbieter und einem großen ISP durchquert häufig Peering-Punkte, die während der Hauptverkehrszeiten überlastet werden können. Symptome: Latenz steigt zu bestimmten Tageszeiten, Paketverluste treten an der ASN-Grenze zwischen zwei Netzwerken auf. Lösung: Verwenden Sie direkte Verbindungen/ dedizierte Interconnects oder leiten Sie über einen anderen Peering-Punkt.

MTU- und Fragmentierungsprobleme

VPN-Tunnel, VXLAN-Overlays und GRE-Kapselung reduzieren die effektive MTU. Wenn Pakete die Pfad-MTU überschreiten und das Don't Fragment-Bit gesetzt ist, werden sie stillschweigend verworfen. Symptome: kleine Anfragen funktionieren, große Antworten schlagen fehl; TCP-Verbindungen hängen nach dem Handshake. Testen Sie mit: ping -M do -s 1472 Ziel (reduziert die Größe, bis es funktioniert). Stellen Sie Ihre Schnittstellen-MTU so ein, dass sie mit der Pfad-MTU übereinstimmt.

Fehler bei Sicherheitsgruppen und Firewall-Blockierungen

Die häufigste Ursache für "es funktioniert von meinem Rechner, aber nicht vom Server." Cloud-Sicherheitsgruppen sind zustandsbehaftet, haben aber Grenzen. Überprüfen Sie: eingehende Regeln am Ziel, ausgehende Regeln an der Quelle, NACLs (die zustandslos sind) und hostbasierte Firewalls (iptables, nftables, Windows-Firewall).

Multi-Source-Tracing

Ein Traceroute von Ihrem Laptop zeigt nur einen Pfad. Ihre Benutzer verbinden sich von Hunderten verschiedener Netzwerke. Multi-Source-Tracing führt Diagnosen von mehreren geografischen Standorten gleichzeitig durch und zeigt:

  • Regionale Ausfälle, die nur bestimmte ISPs oder Länder betreffen.
  • Geo-Routing-Probleme, bei denen einige Benutzer zu entfernten Servern geleitet werden.
  • Asymmetrische Probleme, bei denen der Pfad von Region A funktioniert, aber nicht von Region B.

TraceMapper unterstützt Multi-Source-Tracing von Rechenzentren in Frankfurt und Paris, mit weiteren Standorten, die bald verfügbar sein werden. Pro-Nutzer können Traces von allen verfügbaren Quellen gleichzeitig ausführen.

Integration von Netzwerkdiagnosen in Ihren Workflow

Automatisierte Gesundheitschecks

Fügen Sie Netzwerkverbindungsprüfungen zu Ihrer Bereitstellungspipeline hinzu. Überprüfen Sie vor der Bereitstellung einer neuen Region, ob Traceroutes von wichtigen Benutzerstandorten Ihre Infrastruktur mit akzeptabler Latenz erreichen. Verwenden Sie die Tools von TraceMapper programmatisch, um die Konnektivität als Teil Ihres CI/CD-Prozesses zu validieren.

Überwachung und Alarmierung

Richten Sie eine kontinuierliche Überwachung für:

  • Latenzschwellen: Alarm, wenn RTT zu kritischen Diensten Ihre SLA überschreitet.
  • Paketverlust: Jeder anhaltende Paketverlust über 0,1 % erfordert eine Untersuchung.
  • DNS-Auflösungszeit: Alarm, wenn DNS-Abfragen länger als 100 ms dauern.
  • Zertifikatsablauf: Erkennen Sie TLS-Zertifikatsprobleme, bevor sie Ausfälle verursachen.

Verwenden Sie TraceMapper Monitoring, um automatisierte Prüfungen mit Alarmen einzurichten, die an die Benachrichtigungskanäle Ihres Teams gesendet werden.

Incident Response Runbook

Dokumentieren Sie den obigen diagnostischen Workflow als Runbook. Wenn ein Vorfall auftritt, sollten die Bereitschaftsingenieure:

  1. Ping und Traceroute sowohl vom betroffenen Standort als auch von einem bekannten guten Standort ausführen.
  2. Ergebnisse vergleichen, um zu identifizieren, wo die Pfade divergieren.
  3. DNS, HTTP und Portzugänglichkeit überprüfen.
  4. Ergebnisse (Screenshots, mtr-Berichte) für das Postmortem speichern.

Beginnen Sie mit der Diagnose

Effektive Netzwerkfehlerbehebung folgt einem systematischen Ansatz — von der grundlegenden Konnektivität über die Pfadanalyse bis hin zu Anwendungsprüfungen. TraceMapper bietet alle Tools, die Sie an einem Ort benötigen: Traceroute, Ping, DNS Lookup, HTTP Check, Port Check, IP Reputation und Monitoring. Versuchen Sie jetzt einen kostenlosen Traceroute, um Ihren Netzwerkpfad auf einer Karte visualisiert zu sehen.