Replicated-Storage-DC5 Replicated-Storage-DC1
Momentan gibt es ein Performanceproblem in unserem Storage. Dadurch kann es vereinzelt zu verlangsamter I/O bei virtuellen Servern kommen. Unsere TechnikerInnen sind bereits dabei, das Problem zu beheben.
Update (19:57 Uhr): Das Performanceproblem ist behoben. Nach und nach sollten alle Systeme wieder wie gewohnt funktionieren.
Update (21:06 Uhr): Alle Systeme sind wieder erreichbar.
Update (18.01.2022 21:06 Uhr):
Grund des Ausfalls
Seit ein paar Tagen gab es Performanceprobleme im zentralen Storagesystem (Ceph). Um diese zu beheben wurde eine Anpassung am Cache vorgenommen. Durch diese Anpassung des Caches kam es zu einem Fehler und weitere Clientanfragen wurden blockiert. Dies passierte zeitlich verzögert, wodurch sich die Queue im Cache so schnell gefüllt hat, dass eine Korrektur der Anpassung nicht mehr an die Systeme kommuniziert werden konnte.
Wir konnten das Problem durch eine weitere Anpassung am Cache und durch das neustarten diverser Storagenodes beheben. Dadurch war das Storagesystem wieder durch die anderen Systeme benutzbar. Jedoch mussten danach noch diverse VMs neu gestartet werden, da diese durch blockierte I/O-Requests nicht mehr reagierten.