从失败的Ceph群集中恢复-非活动PG(关闭)

时间:2019-01-04 01:27:18

标签: ceph

Ceph集群PG不活动/关闭。

我的集群运行正常,并尝试使用ceph-deploy工具添加新节点。在将节点添加到群集之前,我没有放置enable noout标志。

因此,在使用ceph-deploy工具时,我最终删除了几次新的OSD节点,看起来Ceph试图平衡PG,现在这些PG处于非活动/停机状态。

我尝试恢复一个PG只是为了查看它是否可以恢复,但事实并非如此。我正在使用ceph来管理OpenStack glance映像和VM。因此,现在所有新虚拟机和现有虚拟机运行缓慢或没有响应。

Ceph树的当前输出:(注意fre201是一个新节点。我最近在该节点上禁用了OSD服务)

var result = _userDataAccess.UpdatePassword(user.UserKey, user.UserPassword);

当前的Ceph健康状况:

Ceph集群的当前运行状况

[root@fre201 ceph]# ceph osd tree ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF -1 70.92137 root default -2 5.45549 host fre101 0 hdd 1.81850 osd.0 up 1.00000 1.00000 1 hdd 1.81850 osd.1 up 1.00000 1.00000 2 hdd 1.81850 osd.2 up 1.00000 1.00000 -9 5.45549 host fre103 3 hdd 1.81850 osd.3 up 1.00000 1.00000 4 hdd 1.81850 osd.4 up 1.00000 1.00000 5 hdd 1.81850 osd.5 up 1.00000 1.00000 -3 5.45549 host fre105 6 hdd 1.81850 osd.6 up 1.00000 1.00000 7 hdd 1.81850 osd.7 up 1.00000 1.00000 8 hdd 1.81850 osd.8 up 1.00000 1.00000 -4 5.45549 host fre107 9 hdd 1.81850 osd.9 up 1.00000 1.00000 10 hdd 1.81850 osd.10 up 1.00000 1.00000 11 hdd 1.81850 osd.11 up 1.00000 1.00000 -5 5.45549 host fre109 12 hdd 1.81850 osd.12 up 1.00000 1.00000 13 hdd 1.81850 osd.13 up 1.00000 1.00000 14 hdd 1.81850 osd.14 up 1.00000 1.00000 -6 5.45549 host fre111 15 hdd 1.81850 osd.15 up 1.00000 1.00000 16 hdd 1.81850 osd.16 up 1.00000 1.00000 17 hdd 1.81850 osd.17 up 0.79999 1.00000 -7 5.45549 host fre113 18 hdd 1.81850 osd.18 up 1.00000 1.00000 19 hdd 1.81850 osd.19 up 1.00000 1.00000 20 hdd 1.81850 osd.20 up 1.00000 1.00000 -8 5.45549 host fre115 21 hdd 1.81850 osd.21 up 1.00000 1.00000 22 hdd 1.81850 osd.22 up 1.00000 1.00000 23 hdd 1.81850 osd.23 up 1.00000 1.00000 -10 5.45549 host fre117 24 hdd 1.81850 osd.24 up 1.00000 1.00000 25 hdd 1.81850 osd.25 up 1.00000 1.00000 26 hdd 1.81850 osd.26 up 1.00000 1.00000 -11 5.45549 host fre119 27 hdd 1.81850 osd.27 up 1.00000 1.00000 28 hdd 1.81850 osd.28 up 1.00000 1.00000 29 hdd 1.81850 osd.29 up 1.00000 1.00000 -12 5.45549 host fre121 30 hdd 1.81850 osd.30 up 1.00000 1.00000 31 hdd 1.81850 osd.31 up 1.00000 1.00000 32 hdd 1.81850 osd.32 up 1.00000 1.00000 -13 5.45549 host fre123 33 hdd 1.81850 osd.33 up 1.00000 1.00000 34 hdd 1.81850 osd.34 up 1.00000 1.00000 35 hdd 1.81850 osd.35 up 1.00000 1.00000 -27 5.45549 host fre201 36 hdd 1.81850 osd.36 down 0 1.00000 37 hdd 1.81850 osd.37 down 0 1.00000 38 hdd 1.81850 osd.38 down 0 1.00000

我不确定如何恢复活动OSD上存在的7125个PG。任何帮助,将不胜感激。

1 个答案:

答案 0 :(得分:0)

?- 2'X = 16'FF. ERROR: Syntax error: Operator expected ERROR: ERROR: ** here ** ERROR: 2'X = 16'FF . 版本的ceph中。发行版要求将PG的最大数量设置为200。在我的情况下,它们的数量超过3000+,因此我需要在监视器的luminous文件和OSD中将max_number_of pgs参数设置为/etc/ceph/ceph.conf,以启用ceph恢复。 / p>