tl6781 - stock.adobe.com
VLAN-Probleme erkennen und beheben
VLAN-Ausfälle haben oft simple Ursachen: defekte Links, falsche VLAN/Trunk-Settings oder Routing-Fehler. Der Tipp zeigt Checks, STP-Schutz, Unknown-Unicast-Limits und LLDP-MED.
VLAN-Störungen haben meist drei Ursachen: physische Defekte, Fehlkonfigurationen auf Layer 2 oder Fehler im Layer-3-Routing. Dieser Leitfaden führt Schritt für Schritt durch Diagnose und Behebung – von Port- und Trunk-Prüfungen über STP-Schutz bis zu Unknown-Unicast-Kontrollen, LLDP-MED und Besonderheiten in MLAG/VXLAN-Umgebungen.
Physische Konnektivität
Damit das Netzwerk funktioniert, muss eine grundlegende physische Konnektivität gegeben sein. Zu den typischen Problemen zählen defekte Leitungen oder Glasfaserkabel, Staub oder Schmutz auf optischen Anschlüssen, beschädigte Anschlüsse, Störungen durch elektrische Systeme oder geknickte Kabel.
Viele dieser Probleme äußern sich als unidirektionale Verbindungen, bei denen Pakete in die eine, aber nicht in die andere Richtung übertragen werden. Netzwerkgeräte können unidirektionale Verbindungen häufig erkennen, was die Diagnose mit einfachen Befehlen wie show interface bei Cisco-Switches erleichtert. Admins müssen den Schnittstellenstatus und die Fehlerzähler in der Ausgabe überprüfen, um die genaue Art des Problems zu identifizieren.
Duplex Mismatch
Bei langsamen Ethernet-Verbindungen sollten Sie die Duplex-Einstellung überprüfen. Beide Seiten einer Verbindung müssen für denselben Duplex-Modus (auto, full oder half ) und dieselbe Geschwindigkeit konfiguriert sein. Ein Duplex Mismatch kann bei niedrigen Paketraten funktionieren und bei höheren Paketraten zu Fehlern führen.
Verlassen Sie sich also nicht auf einen einfachen Ping-Test. Eine Schnittstelle, die Late Collisions anzeigt, kommuniziert im Halbduplex-Modus mit einer Vollduplex-Schnittstelle. Eine Vollduplex-Schnittstelle zeigt Runt Frames an, wenn das verbundene Gerät im Halbduplex-Modus arbeitet. Die empfohlene Einstellung ist heute durchgängig Auto-Negotiation an beiden Enden (Geschwindigkeit und Duplex). Feste Werte sollten Sie nur in begründeten Sonderfällen vorgeben.
Fehlerhafte VLAN-Konfiguration
Die häufigsten Data-Link-Fehler sind die Fehlkonfiguration der VLAN-ID eines Ports oder das Weglassen der Voice-VLAN-ID bei Ports, an die IP-Telefone angeschlossen sind. Die Verbindung sieht gut aus, und der Paketzähler zeigt steigende Werte. Trotzdem gibt es keine Konnektivität. In diesem Fall sollten Admins eine einfache Überprüfung der Konfiguration durchführen.
Trunking
Bei Trunking-Verbindungen müssen Administratoren das native VLAN einrichten, das dem Switch mitteilt, welches VLAN er für alle Frames ohne VLAN-ID verwenden soll; es sollte konsistent und nicht für produktiven Traffic genutzt werden (typisch nicht VLAN 1). Diese ID ist normalerweise im gesamten Netzwerk einheitlich, und Admins müssen nur eine einfache Konfigurationsprüfung vornehmen.
Switch-zu-Switch-Links nutzen häufig Trunking, um mehrere VLANs über eine einzige Verbindung zu übertragen. Die Liste der zulässigen VLANs muss an beiden Enden der Verbindung übereinstimmen und explizit auf benötigte VLANs begrenzt werden. Eine Abweichung kann zu isolierten Instanzen eines VLANs führen. Die Konnektivität funktioniert bei einigen Endpunkten, bei anderen hingegen nicht? Dann führen Sie einfache Konfigurationsprüfungen an den Trunk-Schnittstellen des Switches durch.
Die oben genannten Konfigurations-Checks eignen sich ideal, um die Konfigurationsvalidierung zu automatisieren. Bei diesen Kontrollen müssen keine Änderungen vorgenommen werden, sie müssen lediglich die Netzwerkmitarbeiter auf mögliche Probleme aufmerksam machen.
Schleifen und Linkfehler an Edge-Ports
Edge-Ports verbinden Endgeräte. Die Funktion PortFast (Edge Port) überspringt die Phasen Listening und Learning und beschleunigt somit DHCP, 802.1X und VoIP. Sie sollte jedoch nur auf echten Access-Ports eingesetzt werden. Dazu muss BPDU Guard aktiviert werden. Wenn BPDUs ankommen (zum Beispiel von einem Mini-Switch), geht der Port in den err-disable/shutdown-Zustand. Diese Ereignisse werden protokolliert und können optional automatisch wiederhergestellt werden. Loop Guard gehört auf redundante Uplinks/Nicht-Edge-Ports und verhindert das Forwarding, wenn die erwarteten BPDUs ausbleiben. UDLD (Unidirectional Link Detection) erkennt unidirektionale Links, besonders bei Glasfaser- Im aggressiven Modus werden fehlerhafte Ports abgeschaltet. Ausnahmen sind selten und müssen dokumentiert werden.
Weiterleitungsschleifen in einem geswitchten Netzwerk
Geswitchte Netzwerke basieren traditionell auf dem Spanning Tree Protocol (STP), um Weiterleitungsschleifen zu verhindern. Doch in manchen Fällen kommt es selbst mit STP zu Schleifen. Eine Schleife leitet Ethernet-Frames schnell um die Schleife herum weiter und beansprucht dabei Schnittstellenbandbreite und Switch-CPUs. Dadurch wird ein Netzwerk in kurzer Zeit so überlastet, dass es nicht mehr funktionsfähig ist. Da die CPUs und Netzwerkverbindungen stark ausgelastet sind, lässt sich das Netzwerk leider nicht nutzen, um das Problem zu diagnostizieren.
Zur Fehlerbehebung sollten Administratoren das Netzwerk in immer kleinere Bereiche aufteilen, um herauszufinden, wo sich die Schleife befindet. Teilen Sie das Netzwerk in der Mitte, und identifizieren Sie, in welcher Hälfte die Schleife liegt. Admins können die Unterteilung so lange wiederholen, bis sie die Switches ermitteln, auf denen sich die Schleife befindet – und die Schnittstellen, die damit verbunden sind. Es empfiehlt sich, dies in einer Laborumgebung zu üben, um den Prozess zu erlernen. Die Anbieter haben außerdem Funktionen wie Unidirectional Link Detection, Loop Guard, Root Guard und BPDU Guard entwickelt, um verschiedene Arten von Schleifen zu verhindern.
Leistungseinbruch durch Unknown-Unicast- und BUM-Flooding
In seltenen Fällen kann es vorkommen, dass ein Switch vergisst, wo sich ein Endgerät innerhalb eines VLANs befindet. Dies führt zu einer Situation, die als Unicast Flooding bezeichnet wird. Dies geschieht, wenn sich der Cache-Timer des Switches für die Zuordnung von MAC-Adresse und Port von dem Cache des VLANs für die Zuordnung von Router-IP-Adresse und MAC-Adresse unterscheidet. Ein Beispiel hierfür wird im Cisco-Text Unicast Flooding in Switched Campus Networks beschrieben.
Der Switch vergisst, an welchem Port eine bestimmte MAC-Adresse hängt. In der Folge überflutet er alle Ports im VLAN mit Frames, die für diese MAC-Adresse bestimmt sind. Mehrere Netzwerktopologien und Szenarien können dieses Flooding verursachen. Wenn die betroffenen Systeme viele Daten senden, beispielsweise bei einem Festplatten-Backup, werden alle Systeme im VLAN erheblich belastet.
Administratoren können dieses Problem erkennen, wenn die Endsysteme im betroffenen VLAN immer träger reagieren und die Werte der Paketzähler an allen Schnittstellen im VLAN in gleichem Maße ansteigen. Eine Möglichkeit besteht darin, den Timer für die Zuordnung von MAC-Adresse und Port etwas höher einzustellen als den Timer für die Zuordnung von IP- und MAC-Adresse. Ergänzend bieten viele Hersteller heute Funktionen wie Unknown Unicast Suppression/Blocking und Storm Control, um unbekannte Unicasts, Broadcasts und Multicasts (BUM) gezielt zu drosseln.
Fehlzuordnung von Voice- und Daten-VLANs
Neben statischen Voice-VLAN-IDs ist LLDP-MED für IP-Telefone sinnvoll. So können Geräte das richtige Voice-VLAN automatisch beziehen und QoS-/Policy-Informationen erhalten. Dadurch werden typische Fehlzuordnungen reduziert, insbesondere in heterogenen Umgebungen.
Geroutetes Netzwerk: Layer-3-Probleme
Eine weitere Kategorie von Problemen betrifft die Konnektivität eines VLANs mit dem Rest eines Layer-3-Netzwerks. In diesen Fällen arbeitet das VLAN zwar ordnungsgemäß, aber dessen externe Konnektivität funktioniert nicht. Wenn Admins mindestens ein anderes System im Subnetz anpingen können, klappt die grundlegende Layer-2-Konnektivität, und es handelt sich wahrscheinlich um ein Layer-3-Problem. Es gibt allerdings Ausnahmen, so dass Sie alternative Szenarien nicht ausschließen sollten.
Endpunktkonfiguration
Tritt das Problem bei einem einzelnen Endpunkt auf, überprüfen Sie, ob sich dessen IP-Adresse im richtigen Subnetz befindet und die richtige Subnetzmaske besitzt. Eine falsche Konfiguration kann durch einen Tippfehler während der Konfiguration oder eine Fehlkonfiguration der VLAN-ID auf der Switch-Schnittstelle des Endpunkts verursacht werden, so dass dieser im falschen VLAN/Subnetz landet.
Gateway-Konfiguration
Admins sollten in der Lage sein, das Standard-Gateway im Subnetz sowie benachbarte Systeme im gleichen Subnetz anzupingen. Wenn benachbarte Systeme auf einen Ping reagieren, das Standard-Gateway jedoch nicht, gibt es zwei mögliche Szenarien, die das Problem verursachen.
Die erste Möglichkeit besteht darin, dass das Standard-Gateway nicht richtig konfiguriert ist. Dies könnte an einem fehlenden Switch Virtual Interface (SVI) liegen. Möglicherweise fehlt auch der Router, der das VLAN mit dem gerouteten Layer-3-Netzwerk verbindet, ist falsch konfiguriert oder nicht betriebsbereit. Admins sollten als Nächstes die SVI- oder Router-Verbindung unter die Lupe nehmen und sich nach der Überprüfung wieder dem fehlerhaften Endpunkt widmen. Für weitere Tests müssen die Administratoren unter Umständen auf die oben beschriebenen Layer-2-Testszenarien zurückgreifen.
Als zweite Möglichkeit kommt in Betracht, dass auf dem Endpunkt eine falsche Subnetzmaske für das Standard-Gateway eingetragen ist. Das Symptom bei diesem Szenario äußert sich dadurch, dass der Endpunkt einige, aber nicht alle anderen Endpunkte im VLAN/Subnetz anpingen kann. Ob er das Standard-Gateway erreichen kann und die Pakete ordnungsgemäß zurückgeroutet werden, hängt von den jeweils beteiligten Adressen ab. Auch dies ist ein Fall, bei dem die Automatisierung der Netzwerkvalidierung eine große Hilfe ist.
Fehlerbilder in MLAG- und VXLAN/EVPN-Topologien
In modernen Campus- und Datacenter-Topologien werden Stacking/MLAG und VXLAN/EVPN-Overlays eingesetzt, um STP-Abhängigkeiten zu reduzieren. EVPN bietet unter anderem ARP/ND- und Unknown Unicast Suppression, wodurch BUM-Traffic in VLANs reduziert wird. Beim Troubleshooting ist zu prüfen, ob Probleme auf der Underlay-Ebene (IP), im Overlay (VNI/VTEP) oder an klassischen Access-Ports entstehen.
Fazit
Beim Netzwerk-Troubleshooting empfiehlt sich immer ein Divide-and-Conquer-Ansatz. Achten Sie auf die Symptome und stellen Sie fest, ob es sich um ein Problem auf dem Physical Layer, dem Data Link Layer, dem gerouteten Layer oder dem Application Layer handelt. Ermitteln Sie, wo und warum die Konnektivität nicht gegeben ist. Überprüfen Sie anschließend spezifische Elemente, die mit diesem Layer in Verbindung stehen. Testen Sie jede potenzielle Fehlerquelle, um herauszufinden, wo das Problem liegt und was korrigiert werden muss. Ergänzen Sie diesen Ansatz um automatisierte Validierung (zum Beispiel Konfig- und STP/Trunk-Checks) sowie Edge-Port-Härtung. Das senkt die MTTR (Mean Time to Repair) und verhindert Wiederholungsfehler. VLAN-Troubleshooting bleibt eine zentrale Betriebskompetenz, die sich mit den genannten Schutz- und Suppression-Mechanismen deutlich robuster umsetzen lässt.