Pengembalian Disk yang Tidak Aksesibel Setelah Outage dan Pengulangan SAN

Pengembalian Disk yang Tidak Aksesibel Setelah Outage dan Pengulangan SAN

Dalam beberapa kasus, penggunaan SUSE Linux Enterprise Server dapat mengalami masalah ketika disk tidak dapat diakses setelah terjadi outage pada sistem penyimpanan area (SAN). Masalah ini umumnya terjadi ketika path ke SAN terputus, tetapi tidak ada kerusakan fisik pada disk itu sendiri.

Pada situasi seperti ini, beberapa atau semua pesan log yang terlihat dalam file log /var/log/messages, utilities seperti pvscan, vgs, lvs atau nssmu, atau dalam laporan supportconfig setelah SAN fault di alihkan dan server Linux/OES di-reboot.

Contohnya, /dev/sdx merujuk pada disk yang tidak dapat diakses.

Error SLES

Pesan-pesan error berikut muncul:

  • ldm_validate_partition_table(): Disk read failed. /dev/sdx: unable to read partition table
  • /dev/sdx: read failed after 0 of 4096 at 0: Input/output error
  • /dev/sdx: read failed after 0 of 4096 at 1099511562240: Input/output error

Namun, perintah seperti mount dan fdisk menunjukkan bahwa device tersebut tersedia namun tidak dapat dibaca.

Situasi

Pada saat insiden, dua dari empat disk yang tersedia pada server, namun dua lainnya tidak dapat diakses. Rebooting server juga tidak membantu masalah ini.

Pengembalian

Masalah ini dapat dikembalikan dengan mereboot node SAN yang dipanggil oleh server tersebut.

Penyebab

Tim Support SAN tidak dapat menentukan penyebab sebenarnya dari masalah ini. Mungkin, masalah ini adalah simptom dari kerusakan asli yang menyebabkan SAN gagal.

Informasi Tambahan

Sebagai langkah troubleshooting, perintah berikut digunakan untuk menentukan apakah disk tersebut dapat dibaca pada tingkat blok:

  • dd if=/dev/sdx of=/tmp/sdx.out bs=1024 count=5

Perintah ini akan gagal mencoba membaca beberapa blok dari disk. Perintah dd melakukan baca-copy blok-level dan tidak tergantung pada filesystem yang ada pada disk; artinya, bahkan jika filesystem tersebut rusak parah, perintah dd masih dapat membaca dan menyalin data (termasuk korupsi) itu.

Karena disk lainnya pada server yang sama, yang menggunakan driver yang sama, dapat dibaca dengan berhasil, maka driver tersebut tampaknya berfungsi secara normal.