EBS Raid-0:20个EBS卷中有9个“受损”。怎么办?

时间:2012-06-30 17:16:07

标签: amazon-ec2 amazon-web-services amazon-ebs raid

我有一个ec2实例(10GB网络,AMI:EC2 CentOS 5.5 GPU HVM AMI(驱动程序260.19.29)(ami-42a2532b)),在raid-0中附加了20个EBS卷。由于昨晚中断了AWS,其中9个卷标记为“受损,可能存在数据不一致”且I / O已禁用。该实例现已停止。卷正在等待“启用I / O”。

此外,不属于raid阵列且具有根分区的小型EBS卷也受损。

AWS建议启用受损卷的I / O,然后对它们运行fsck,但这当然不适用于raid阵列中使用的EBS卷。

为了尝试恢复该阵列,最安全的方法是什么?我知道我可能会失去一切,这就是为什么我们有应急计划(只需要更多的工作和时间来恢复),但我宁愿把所有的机会放在我身边,并尝试恢复/修复阵列。那么什么似乎是最安全的行动?

感谢。

1 个答案:

答案 0 :(得分:2)

想要提供更新并关闭此问题。基本上一切都很顺利,我没有任何数据损坏。 FSCK运行干净,使用这个数组的并行数据库启动很好,一切都很好。

以下是一些有助于收集一些数据的命令,因为我小心翼翼地走进矿区:

  • mdadm --detail /dev/md0 >md0_detail了解raid数组。
  • mdadm --examine /dev/sd[fghijklmnopqrstuvwxy] > examine_sd检查raid阵列的每个组件。
  • grep -i checksum examine_sd验证所有校验和是否正确。
  • mount -o noatime /dev/md0 /data由于低级别测试看起来不错,因此尝试安装raid设备。

注意:

  • 设备使用的实际fs为ext4(已记录)
  • 一切顺利,经历过它似乎应有尽有。

进一步行动:

  • umount /data在执行fsck之前卸载raid数组。
  • fsck /dev/md0这一切都很干净,没有任何问题。
  • mount -o noatime /dev/md0 /data最后,装好设备。