← Zurück zu PLUTEX GmbH Status Seite

Wartungsarbeiten an zentralen Netzwerkkomponenten

07.05.2023 13:00


Am Sonntag, den 07.05.2023 zwischen 13 und 17 Uhr führen wir Wartungsarbeiten an unserem Netzwerk durch.

Dadurch wird es zu mehreren kurzen Ausfällen der Netzwerkverbindung kommen. Die einzelnen Ausfälle sollten jeweils nicht länger als 5 Minuten dauern.

Es werden alle Produktkategorien (Internetanschlüsse, Webhosting, VMs, Colocation) betroffen sein.

Wir bitten die Unannehmlichkeiten zu entschuldigen.

Update 16:20 Uhr: Die Wartungsarbeiten wurden früher als erwartet erfolgreich abgeschlossen. Der längste gemessene Ausfall betrug leider mit etwa 10 Minuten länger als angekündigt.

Hintergrund

Vor Kurzem ist in einem unserer Kernswitche eine SSD ausgefallen. Während der Ausfall dieses einen Switches ohne jegliche Auswirkungen auf den Produktivibetrieb blieb, stellte sich heraus dass ein Softwarefehler zu einer erheblich höheren Schreibrate auf die SSD geführt hatte. Einen zweiten Switch, dessen Ausfall wir daher erwarteten, haben wir noch rechtzeitig in einem kleineren Wartungsfenster von nicht-redundanten Verbindungen befreien können, bevor auch dieser ausfiel.

Um dieses Problem langfristig zu lösen ist ein Softwareupgrade der Switche notwendig. Leider gibt es keinen Migrationspfad von der aktuell verwendeten zu einer nicht mehr betroffenen Version, sodass wir die Switche einzeln komplett neu installieren müssen. Dies haben wir im hier angekündigten Wartungsfenster vor.

Konkret werden wir aus den zur Verfügung stehenden Switchen vorübergehend zwei getrennte Cluster bilden – eines mit der neuen und eines mit der alten Softwareversion. Der erste Ausfall entsteht beim Schwenk vom Cluster mit der alten zum Cluster mit der neuen Version. Für die meisten Kund*Innen wird dies der einzige Ausfall sein. Für einige könnte aber beim abschließenden Verteilen der nicht-redundanten Verbindungen auf die verschiedenen Switche noch ein zweiter Ausfall entstehen.

Nach Abschluss des Softwareupgrades werden wir die verbleibende Zeit nutzen, um ggf. noch auf alter Infrastruktur bestehende Verbindungen auf neuere Geräte umzuziehen, um sie perspektivisch besser vor Ausfällen schützen zu können.