RAID 6 Ausfall - Wenn das MSA Storage unbemerkt im Degraded Mode läuft -
Wir übernehmen für Sie die professionelle Wiederherstellung von Daten und haben langjährige Erfahrung mit allen gängigen Systemen.
DIREKT ZUR ANFRAGE

RAID 6 Datenrettung eines HP MSA Storage

Hamburg - 14. August 2018 - Andreas Mortensen

Man denkt ja immer, RAID 6 Systeme sind nahezu sicher vor Datenverlust. Und ja – wahrscheinlich werden europawetweit täglich zig RAID 6 Systeme erfolgreich rebuilded, von denen wir als Datenretter natürlich nichts mitbekommen. In der Regel werden wir nur dann zur Hilfe gerufen, wenn gleich mehrere Faktoren zusammenwirken: der unerwartete Ausfall des Servers – meist nach einem fehlgeschlagenen Rebuild – und ein unvollständiges bzw. fehlerhaftes Backup.

Jetzt denkt man vielleicht, RAID 6 sei standardisiert und eine Wiederherstellung eines RAID 6 Arrays läuft unter „erweiterter“ Routine eines Datenretters. Das dem aber nicht immer so ist, möchte ich an einem kurzen Beispiel erläutern – ein konkreter Fall, der vor wenigen Tagen in unserem Labor war:

Ausfall einer HP MSA mit 18 SAS Festplatten

Wie bereits erwähnt, mehrere Szenarien müssen zusammenspielen, damit die Anfrage und später der Patient überhaupt in unserem Datenrettungslabor landet. Dies war auch im aktuellen Geschehen der Fall. In einer HP MSA meldete eine Festplatte aus einem RAID 6 Verbund einen Fehler. Diese Festplatte wurde entnommen und durch einen neuen Datenträger ersetzt. Allerdings musste der Kunde feststellen, dass der Server die RAID 6 Gruppe nicht mehr erkannte. Schnell wurde die alte SAS-Festplatte wieder zurückgebaut, in der Hoffnung man könnte den Server, auf welchem sich mehrere virtuelle VMware Maschinen befanden, wieder zum Laufen zu bringen. Dies war allerdings ebenfalls nicht von Erfolg gekrönt und das nur teilweise vorhandene Backup war natürlich nicht ausreichend.

Zwei Festplatten mit falschem Inhalt?

Der Fall wurde umgehend an unsere Labortechniker übergeben. Es handelte sich um ein RAID 6 Vdisk aus einer HP MSA mit 18 zugeordneten Festplatten. Zu aller Überraschung mussten unsere Techniker feststellen, dass zwei dieser Festplatten inhaltlich absolut gar nichts mit dem RAID 6 Verbund zu tun hatten. Eine Festplatte hatte nahezu keinen Dateninhalt, und die zweite Festplatte passte von den Daten überhaupt nicht zu den übrigen.

Irrtum: Kein automatisches Rebuild des RAID 6 Arrays nach Festplattentausch

Es stellte sich heraus, dass in der Vergangenheit des Öfteren defekte HDDs getauscht wurden. Vermutlich wurde bei den letzten Beiden aber kein automatisches Rebuild mehr ausgeführt. Die Folge war, dass das Storage über einen längeren Zeitraum bereits im Degraded Mode lief und der Ausfall der dritten Festplatte nun den Datenverlust komplettierte und der VMFS Datapool somit plötzlich nicht mehr verfügbar war.

Achtung: RAID 6 Technologie ist NICHT standardisiert!

Die Herausforderung bestand in Folge darin, die Parity und das Q-Polynom virtuell zu simulieren (zur Vertiefung ist das Thema Reed-Solomon zu empfehlen). Letzteres stellte unsere Ingenieure vor eine besondere Herausforderung. Grund hierfür ist, dass jeder Hersteller bei RAID 6 quasi „sein eigenes Ding“ dreht. Dies gilt nicht nur für den Verlauf der Parity, sondern insbesondere auch für die Berechnung des Q-Streifens. Zwar hatten wir in der Vergangenheit schon mehrere ausgefallene RAID6 Arrays von HP MSA Systemen im Labor, allerdings ließen sich die gewonnenen Erkenntnisse nicht 1:1 auf den aktuellen Fall übertragen.

RAID 6 Datenrettung war nur durch Forschung und Entwicklung möglich

Es folgten dutzende Stunden des Reverse Engineerings. Unterschiedlichste Permutationen brachten in den ersten Anläufen leider noch nicht den gewünschten Erfolg. Mit Hilfe multipler Verfahren und eigenhändiger Programmierung konnten unsere Ingenieure schlussendlich die Berechnung dieses Streifens korrekt simulieren und die geretteten Daten wurden dem Kunden schließlich prompt wieder ausgehändigt.

Andreas Mortensen
Kundenbetreuung
(040) 54887560
info@attingo.com Live-Chat Diagnose-Anfrage
24h-Service 98% Erfolgsrate
iso 9001 siegel grau

Attingo-Magazin

Pressemeldungen & Aktuelles
Attingo in der Presse
Messetermine und Konferenzen
Blog
Stichwortverzeichnis
FAQ - Häufig gestellte Fragen
Fallstudien: Datenrettung