- Server 1: historie a záměr
- Server 2: koncept UPS
- Server 3: realizace UPS
- Server 4: komponenty UPS
- Server 5: návrh HW pro server
- Server 6: Konstrukce a chlazení
- Server 7: software
- Server 8: zkušenosti
- Server 9: upgrade a zašifrování RAID pole
- Server 10: automatické odemknutí zašifrovaného pole
- Server 11: přechod na RAID6
- Server 12: UPS baterie umřela
- Server 13: upgrade CPU
- Síť
- NAS a zálohovací server
- Server 14: Výměna disku za pochodu
- Server 15: využití zahálejícího výkonu
- Server 16: výměna chladiče a poučná zkušenost
- Server 17: Virtualizace serveru
- Server 18: Racková skříň a montáž
- Server 19: Spuštění rackového serveru
- Server 20: konečně SAS řadič a další výzva
- Server 21: Zálohy reloaded
- Server 22: Výměna základní desky
- Server 23: Rack
- Server 24: NAS HDD do šrotu?
- Server 25: zkušenosti s ročním provozem
- Server 26: Migrace Raid1 pole
V prázdninovém opojení, v relaxačním týdnu a deštivém počasí, jsem si řekla, že na disku se vzrůstajícím počtem realokovaných sektorů spustím smartctl -t long test, který provádí čtení celého disku. Protože mírně snižuje dostupnost pole a především, protože existuje riziko, že odhalí problémy, které byly dřív neviditelné a bude třeba je řešit.
Test našel další vadné sektory, které označil za Pending a Offline uncorrectable. Čili ten disk zjevně odchází do věčných lovišť, na pole už se nemohu tak spolehnout, i když se zdá, že pracuje. Pracuje mi i smartd, který mi poslal mail:
The following warning/error was logged by the smartd daemon:
Device: /dev/sdg [SAT], 8 Currently unreadable (pending) sectors
No nic, čas mám, pole zruším trochu dřív, než jsem předpokládala.
Migrace na nový disk a zrušení pole
na hlavním Raid6 poli z šestice SSD mám luks, pak lvg VG1 a ještě přes 2TB volného místa. Na něm jsem vytvořila nový LVM:
lvcreate -L 2T -n lvMedia VG1
Nový disk jsem svěřila VM, který má NAS na starosti. V konfiguraci stroje jsem prostě vytvořila nový záznam pro daný disk. A pak jsem virtuál restartovala.
A začaly se dít věci: do virtuálu se nešlo přes SSH přihlásit, ačkoliv na síti byl. Přihlásila jsem se na VNC konzoli a zjistila, že selhal mount původního RAID1 pole. Proč? Ještě se s ním přece nic nedělalo. V konfiguraci virtuálu žádný problém nebyl, stroj viděl všechny svěřené disky, včetně toho 5TB pole i nového LVM 2TB disku.
Zkusila jsem to mountnout ručně, a chyba, prý EXT4-fs error ext4 find extent… Což znamená poškozenou hlavičku fs, špatné. Takže ten načatý HDD přece jen zlobí, a to hodně. Naštěstí se to dalo spravit: v hypervizoru jsem zavřela luks kontejner nad raid1 polem (luksClose), ten selhávající HDD z raidu jsem prostě vykopla:
mdadM /dev/md1 –fail /dev/sdg, pak –remove.
Server mi poslušně poslal zprávu:
A Fail event had been detected on md device /dev/md/1.
It could be related to component device /dev/sdg1.
Faithfully yours, etc.
P.S. The /proc/mdstat file currently contains the following:
Personalities : [raid1] [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid10]
md1 : active raid1 sdg1[0](F) sdi1[2]
4883637440 blocks super 1.2 [2/1] [_U]
bitmap: 0/37 pages [0KB], 65536KB chunk
Pak jsem znovu otevřela luks kontejner, restartovala virtuální stroj s NAS, a vida, pole se nechalo namountovat. Raid1 se špatným diskem tedy úplně v klidu čte a vrací data z vadného disku. Dává to logiku – žádná parita, prostě co mu dřív přijde, to bere. Raid6 je v tomto ohledu spolehlivější, ale k tichému poškození dat i tak dojít může.
Následně jsem ve virtuálu mountla i nový 2TB disk, a přenesla veškerá data z degradovaného raid1 pole. To trvalo několik hodin a server (nejspíš SAS řadič) se u toho dost zapotil:
Na výkonu serveru to bylo i znát – načítání nekešovaných stránek trvalo o poznání déle.
Následně jsem upravila fstab VM tak, aby se už mountoval jen nový LVM disk tam, kam původně to původní raid1 pole. Z konfigurace VM jsem odstranila celé to raid1 pole, poslední testovací restart VM – ten si dal trochu načas. Vše se ale namapovalo podle očekávání, starý raid1 pole už ve virtuálním stroji nemám.
A LVM disk s audiovizuálními soubory je téměř plný:
/dev/vdc 2.0T 1.8T 87G 96% /mnt/meDisk
Ale to se spraví. Pole raid1 stále na hypervizoru jede, je degradované, nikde není použité, a uvolnila se mi hotswap pozice. Mám v šuplíku jeden nepoužitý 1TB disk, dám jej tam a přidám jej jako další disk.
Zvětším mdadm pole a obalující luks kontejner.
Zvětším LVM lvMedia o nové 1TB.
Ve virtuálním stroji zvětším filesystém.
Později, až koupím první 2TB disk, to staré Raid1 pole úplně zruším, a provedu ty úkony ještě jednou, takže výsledkem budou 4TB k dispozici pro data filmů, fotek a muziky, které jsem původně měla na dvojici zrcadlených SMR disků.
No a v průběhu dalšího času budu pomalu nahrazovat ty 1TB disky za 2TB, což už bude asi ultimátní řešení mého datového prostoru.
Závěr?
SMR disk běžel nonstop 24/7 několik let. Asi dostal ťuka, nebo jsem měla smůlu na slabší kousek, protože už po roce zahlásil přemapované sektory. Druhý, o něco málo mladší, provoz zatím snáší bez problémů – veškerá data jsem z něj dostala, žádné vadné sektory. Takže výsledek je uspokojivý. Před čtyřmi lety nebylo kvůli ceně SSD pomyšlení na to, dělat podobné úložiště na SSD discích, a ani řešení serveru mi neumožňovalo postavit větší pole z malých SSD – tehdy jsem používala 500GB SSD.
No, a teď se zdá, že pole dosloužilo. Zbyl mi jeden plně funkční 5TB disk a druhý už nespolehlivý, použitelný jen na pokusy nebo na nějaké velmi nenáročné použití. A zbyl mi taky dobrý pocit, že mi oba velmi dobře posloužily.