Praktický prístup spoločnosti Gentlent k riešeniu zlyhania disku v našej serverovej konfigurácii. Tento príspevok pokrýva kroky, ktoré sme podnikli na identifikáciu, riešenie a vylepšenie nášho systému, aby sme predišli budúcim problémom, a to všetko bez ovplyvnenia našich zákazníkov.
Počas rutinného kontroly servera pred niekoľkými dňami sme si všimli znepokojujúci vzor: jeden z našich diskov bol už po druhý raz za mesiac vysunutý z RAID poľa. Stalo sa zrejmým, že tento disk zlyháva, čo spôsobilo, že malé RAID pole servera bolo v degradovanom stave.
Možnosť straty dát alebo výpadku v takýchto situáciách je obavou pre každý IT tím. Avšak, vždy sme kládli dôraz na integritu dát a spoľahlivosť systému. Vďaka našim pravidelným, bezpečným záložným protokolom a replikácii v reálnom čase pre kľúčové databázy sme boli pripravení. Tento prístup zabezpečil, že aj keď bol server v ohrození, naše operácie mohli pokračovať bez prerušenia a čo je dôležitejšie, bez ohrozenia akýchkoľvek zákazníckych dát.
Po zistení problému sme nezaháľali. Rýchlo sme zadovážili ďalšie SSD disky a pustili sa do modernizácie RAID polí na našich zariadeniach. Proces modernizácie prebiehal hladko pre druhý server, ktorý sme modernizovali len pre istotu, ale narazili sme na problém s prvým: jeho zavádzacia partícia bola na zlyhávajúcom disku.
Riešenie tohto problému vyžadovalo praktický prístup. Vyrazili sme na miesto, nahradili problematický disk a prekonfigurovali RAID pole. Tento proces trval niekoľko hodín, ale na jeho konci bol server opäť v prevádzke, akoby sa nič nestalo.
Keď sme identifikovali zlyhávajúci disk, naša okamžitá pozornosť bola zameraná na zabezpečenie integrity nášho RAID poľa a obnovenie plnej funkčnosti. Tu je stručný prehľad technických krokov, ktoré sme vykonali:
Najprv sme použili mdadm
na preskúmanie stavu našich RAID polí:
sudo mdadm --detail /dev/md0
Tento príkaz nám pomohol potvrdiť, ktorý disk zlyháva. Pri pokuse o jeho opätovné pripojenie k softvérovému RAID poľu sme si všimli významný pokles rýchlosti zápisu v reálnom čase.
Našou prvou prekážkou bolo získať prístup k súborovému systému servera bez zavedenia zo skompromitovaného disku. Dosiahli sme to pomocou Live Ubuntu Server ISO, čo je pomerne jednoduché:
mount
a chroot
sa použili podľa tohto návodu na prístup k súborovému systému servera. Toto nám umožnilo vykonať zmeny v konfigurácii servera a RAID poľa. Tieto príkazy môžu vyzerať takto:
for i in /dev /dev/pts /proc /sys /run; do sudo mount -B $i /mnt$i; done sudo chroot /mnt
Po prístupe k shell sme pokračovali v príprave nového disku na integráciu do RAID poľa:
/dev/sdX
) sme vytvorili novú tablu oddielov a oddiely zrkadliace tie na existujúcich RAID diskoch.
sudo fdisk /dev/sdX
Po rozdelení disku bol ďalším krokom jeho integrácia do RAID poľa:
mdadm
na pridanie nového oddielu k existujúcemu RAID poľu.
sudo mdadm --manage /dev/md0 --add /dev/sdX1
cat /proc/mdstat
Absencia zavádzacej partície na prežívajúcom disku bola kritickým problémom, ktorý sme potrebovali vyriešiť:
fdisk
na vytvorenie novej systémovej partície EFI na prežívajúcom disku.
sudo fdisk /dev/sdY
sudo mkfs.vfat -F 32 /dev/sdY1
/mnt/efi
.
sudo mount /dev/sdY1 /mnt/efi
sudo grub-install --target=x86_64-efi --efi-directory=/mnt/efi --bootloader-id=Ubuntu
fstab
Posledným krokom bolo zaistiť, aby systém mohol automaticky pripojiť novú EFI partíciu pri štarte:
blkid
na získanie UUID.
blkid /dev/sdY1
/etc/fstab
: Pridali sme nový riadok pre EFI partíciu pomocou UUID získaného z blkid
.
UUID=<new-efi-partition-uuid> /boot/efi vfat umask=0077 0 1
Po dokončení týchto krokov sme reštartovali server, aby sme overili, že zotavenie bolo úspešné. Systém sa spustil normálne a všetky RAID polia fungovali podľa očakávania.
Počas tejto skúšky sme sa zamerali na udržanie kontinuity služieb pre našich zákazníkov. Vďaka našim preventívnym opatreniam a rýchlej reakcii sme to dokázali. Neboli ohrozené žiadne zákaznícke dáta a naše služby zostali online a plne funkčné.
Pri riešení tejto výzvy sme si uvedomili dôležitosť pravidelných kontrol systému, spoľahlivých záložných stratégií a schopnosti rýchlo reagovať na nepredvídané problémy. Sú to práve tieto praktiky, ktoré nám pomáhajú dodržať náš sľub spoľahlivých služieb pre našich zákazníkov.
Tom Klein
Founder & CEO
Gentlent UG (haftungsbeschränkt)
Gentlent
Zákaznícka podpora
support@gentlent.com