Skip to content
 

Ako sme sa zotavili z neúspešného disku

Praktický prístup spoločnosti Gentlent k riešeniu zlyhania disku v našej serverovej konfigurácii. Tento príspevok pokrýva kroky, ktoré sme podnikli na identifikáciu, riešenie a vylepšenie nášho systému, aby sme predišli budúcim problémom, a to všetko bez ovplyvnenia našich zákazníkov.

Tom Kleinod Tom Klein · ~ 4 min čítania
Praktický prístup spoločnosti Gentlent k riešeniu zlyhania disku v našej serverovej konfigurácii. Tento príspevok pokrýva kroky, ktoré sme podnikli na identifikáciu, riešenie a vylepšenie nášho systému, aby sme predišli budúcim problémom, a to všetko bez ovplyvnenia našich zákazníkov.
Praktický prístup spoločnosti Gentlent k riešeniu zlyhania disku v našej serverovej konfigurácii. Tento príspevok pokrýva kroky, ktoré sme podnikli na identifikáciu, riešenie a vylepšenie nášho systému, aby sme predišli budúcim problémom, a to všetko bez ovplyvnenia našich zákazníkov.
 

Počas rutinného kontroly servera pred niekoľkými dňami sme si všimli znepokojujúci vzor: jeden z našich diskov bol už po druhý raz za mesiac vysunutý z RAID poľa. Stalo sa zrejmým, že tento disk zlyháva, čo spôsobilo, že malé RAID pole servera bolo v degradovanom stave.

Možnosť straty dát alebo výpadku v takýchto situáciách je obavou pre každý IT tím. Avšak, vždy sme kládli dôraz na integritu dát a spoľahlivosť systému. Vďaka našim pravidelným, bezpečným záložným protokolom a replikácii v reálnom čase pre kľúčové databázy sme boli pripravení. Tento prístup zabezpečil, že aj keď bol server v ohrození, naše operácie mohli pokračovať bez prerušenia a čo je dôležitejšie, bez ohrozenia akýchkoľvek zákazníckych dát.

Po zistení problému sme nezaháľali. Rýchlo sme zadovážili ďalšie SSD disky a pustili sa do modernizácie RAID polí na našich zariadeniach. Proces modernizácie prebiehal hladko pre druhý server, ktorý sme modernizovali len pre istotu, ale narazili sme na problém s prvým: jeho zavádzacia partícia bola na zlyhávajúcom disku.


Oprava

Riešenie tohto problému vyžadovalo praktický prístup. Vyrazili sme na miesto, nahradili problematický disk a prekonfigurovali RAID pole. Tento proces trval niekoľko hodín, ale na jeho konci bol server opäť v prevádzke, akoby sa nič nestalo.

Keď sme identifikovali zlyhávajúci disk, naša okamžitá pozornosť bola zameraná na zabezpečenie integrity nášho RAID poľa a obnovenie plnej funkčnosti. Tu je stručný prehľad technických krokov, ktoré sme vykonali:


1. Identifikácia Problému

Najprv sme použili mdadm na preskúmanie stavu našich RAID polí:

sudo mdadm --detail /dev/md0

Tento príkaz nám pomohol potvrdiť, ktorý disk zlyháva. Pri pokuse o jeho opätovné pripojenie k softvérovému RAID poľu sme si všimli významný pokles rýchlosti zápisu v reálnom čase.


2. Štart z Live Image - Ubuntu Spôsob

Našou prvou prekážkou bolo získať prístup k súborovému systému servera bez zavedenia zo skompromitovaného disku. Dosiahli sme to pomocou Live Ubuntu Server ISO, čo je pomerne jednoduché:

  1. Pripraviť Live Média: Stiahli sme si ISO obraz Ubuntu Server a vytvorili bootovateľný USB kľúč.
  2. Štart do Živého Prostredia: Vložili sme USB kľúč a reštartovali server. Počas procesu zavedenia sme vybrali USB kľúč ako zavádzacie zariadenie.
  3. Vstúpiť do Shell v Live Session: Keď sa načítala live inštalácia Ubuntu Servera, klikli sme na tlačidlo "Pomoc" vpravo hore na obrazovke a vybrali "Vstúpiť do shell" na prístup k terminálu bez reálnej inštalácie obrazu.
  4. Pripojiť Potrebné Súborové Systémy: Príkazy ako mount a chroot sa použili podľa tohto návodu na prístup k súborovému systému servera. Toto nám umožnilo vykonať zmeny v konfigurácii servera a RAID poľa. Tieto príkazy môžu vyzerať takto:
    for i in /dev /dev/pts /proc /sys /run; do sudo mount -B $i /mnt$i; done
    sudo chroot /mnt


3. Príprava Nového Disku

Po prístupe k shell sme pokračovali v príprave nového disku na integráciu do RAID poľa:

  1. Identifikovať Nový Disk: Použili sme lsblk na výpis všetkých blokových zariadení a identifikáciu nového disku.
  2. Particionovanie Nového Disku: Pomocou fdisk na novom disku (/dev/sdX) sme vytvorili novú tablu oddielov a oddiely zrkadliace tie na existujúcich RAID diskoch.
    sudo fdisk /dev/sdX


4. Integrácia Disku do RAID Poľa

Po rozdelení disku bol ďalším krokom jeho integrácia do RAID poľa:

  1. Pridať Nový Oddiel do RAID: Použili sme mdadm na pridanie nového oddielu k existujúcemu RAID poľu.
    sudo mdadm --manage /dev/md0 --add /dev/sdX1
  2. Monitorovať Obnovu RAID: Sledovali sme proces obnovy, aby sme zaistili, že prebieha bez problémov.
    cat /proc/mdstat


5. Riešenie Boot Partície

Absencia zavádzacej partície na prežívajúcom disku bola kritickým problémom, ktorý sme potrebovali vyriešiť:

  1. Vytvoriť Novú EFI Partíciu: Použili sme fdisk na vytvorenie novej systémovej partície EFI na prežívajúcom disku.
    sudo fdisk /dev/sdY
  2. Formátovať EFI Partíciu: Následne sme formátovali novú EFI partíciu ako FAT32.
    sudo mkfs.vfat -F 32 /dev/sdY1
  3. Pripojiť EFI Partíciu: Pripojili sme novú EFI partíciu na /mnt/efi.
    sudo mount /dev/sdY1 /mnt/efi
  4. Znovu Inštalovať GRUB: Znovu sme nainštalovali GRUB na EFI partíciu, aby sme obnovili zavádzacie funkčnosti.
    sudo grub-install --target=x86_64-efi --efi-directory=/mnt/efi --bootloader-id=Ubuntu


6. Aktualizácia fstab

Posledným krokom bolo zaistiť, aby systém mohol automaticky pripojiť novú EFI partíciu pri štarte:

  1. Nájsť UUID Novej EFI Partície: Použili sme blkid na získanie UUID.
    blkid /dev/sdY1
  2. Upraviť /etc/fstab: Pridali sme nový riadok pre EFI partíciu pomocou UUID získaného z blkid.
    UUID=<new-efi-partition-uuid> /boot/efi vfat umask=0077 0 1


7. Overenie Zotavenia

Po dokončení týchto krokov sme reštartovali server, aby sme overili, že zotavenie bolo úspešné. Systém sa spustil normálne a všetky RAID polia fungovali podľa očakávania.


Bezproblémová Služba

Počas tejto skúšky sme sa zamerali na udržanie kontinuity služieb pre našich zákazníkov. Vďaka našim preventívnym opatreniam a rýchlej reakcii sme to dokázali. Neboli ohrozené žiadne zákaznícke dáta a naše služby zostali online a plne funkčné.

Pri riešení tejto výzvy sme si uvedomili dôležitosť pravidelných kontrol systému, spoľahlivých záložných stratégií a schopnosti rýchlo reagovať na nepredvídané problémy. Sú to práve tieto praktiky, ktoré nám pomáhajú dodržať náš sľub spoľahlivých služieb pre našich zákazníkov.


Zdieľajte článok


Tom Klein
Founder & CEO
Gentlent UG (haftungsbeschränkt)

Gentlent
Zákaznícka podpora
support@gentlent.com



Nedávne články

Chcete sa dozvedieť viac?
Dajte nám vedieť ešte dnes.

 
GentlentOficiálna webová stránka Gentlent. Oficiálne webové stránky Gentlent sú vždy prepojené z našej webovej stránky gentlent.com, alebo obsahujú rozšírený overený certifikát.
Skyline Dusseldorf