应用错误收集

我有一个ec2实例（10GB网络，AMI：EC2 CentOS 5.5 GPU HVM AMI（驱动程序260.19.29）（ami-42a2532b）），在raid-0中附加了20个EBS卷。由于昨晚中断了AWS，其中9个卷标记为“受损，可能存在数据不一致”且I / O已禁用。该实例现已停止。卷正在等待“启用I / O”。

此外，不属于raid阵列且具有根分区的小型EBS卷也受损。

AWS建议启用受损卷的I / O，然后对它们运行fsck，但这当然不适用于raid阵列中使用的EBS卷。

为了尝试恢复该阵列，最安全的方法是什么？我知道我可能会失去一切，这就是为什么我们有应急计划（只需要更多的工作和时间来恢复），但我宁愿把所有的机会放在我身边，并尝试恢复/修复阵列。那么什么似乎是最安全的行动？

感谢。

想要提供更新并关闭此问题。基本上一切都很顺利，我没有任何数据损坏。 FSCK运行干净，使用这个数组的并行数据库启动很好，一切都很好。

以下是一些有助于收集一些数据的命令，因为我小心翼翼地走进矿区：

mdadm --detail /dev/md0 >md0_detail了解raid数组。
mdadm --examine /dev/sd[fghijklmnopqrstuvwxy] > examine_sd检查raid阵列的每个组件。
grep -i checksum examine_sd验证所有校验和是否正确。
mount -o noatime /dev/md0 /data由于低级别测试看起来不错，因此尝试安装raid设备。

注意：

设备使用的实际fs为ext4（已记录）
一切顺利，经历过它似乎应有尽有。

进一步行动：

umount /data在执行fsck之前卸载raid数组。
fsck /dev/md0这一切都很干净，没有任何问题。
mount -o noatime /dev/md0 /data最后，装好设备。

EBS Raid-0：20个EBS卷中有9个“受损”。怎么办？

1 个答案: