我尝试了什么：

Question

问题（如果您想查看＆＃39;状态＆＃39;首先，请查看帖子末尾的输出）

在我的生产群集中，缓慢恢复的擦除编码池，

新的擦除池无法使用，因为他们所有的pgs仍然存在＆＃34;创建+不完整＆＃34;看似永远。

我现有的游泳池恢复需要很长时间（几个月），但我希望能够创建新的＆＃39; clean＆＃39;立即汇集以有弹性的方式接收新数据。

我尝试了什么：

ceph osd pool create newpool 128 128 erasure myprofile

rados --pool newpool put anobject afile ==＆GT;这会阻止

ceph pg ls-by-pool newpool incomplete ==＆gt;列出我所有的pgs

ceph pg 15.1查询 ==＆GT;国家＆＃34;创建+不完全＆＃34; ＆＃34;向上＆＃34;和＆＃34;表演＆＃34;仅包含osd＆＃39; 1＆＃39;作为第一个元素，并且在所有其他位置都是＆＃39; null＆＃39;（2147483647）。

请注意osd＆＃39; 1＆＃39;在我的平台上是最多的（它的PG数量几乎是其他OSD的两倍）

完整上下文

Luminous 12.2.0（Ubuntu 16.04）从jewel迁移
现有的擦除池存在非常恶化的情况（所有OSD现在都已启动，但83％的对象放错地方，13％的对象降级）
恢复时间估计为一年
我的删除配置文件是12 + 3

==＆GT;我想开始写一个新的＆＃34; clean＆＃34;游泳池，而现有的游泳池将慢慢恢复。

===================================== ceph状态

群集： id：b5ee2a02-b92c-4829-8d43-0eb17314c0f6 健康：HEALTH_WARN 1314118857/1577308005物品放错地图（83.314％）数据可用性降低：10 pgs不活跃，10 pgs不完整降级的数据冗余：203997294/1577308005对象降级（12.933％），492 pgs不洁，342 pgs降级，279 pgs小型化

服务： mon：28个守护进程，法定人数1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22， 23,24,25,26,27,28 mgr：37（有效），备用：38,12,45,33,29,10,11,22,31,47,15,36,40,32,41,24,44,34,27,28,43 ，35,39,16,25,26,2,9,3,4,5,23,19,17,5,42,6,21,7,20,30,13,18,14,46,1 osd：47 osds：47 up，47 in; 512个重新映射的pgs

数据：游泳池：3个游泳池，522 pgs 对象：100M对象，165 TB 用量：191 TB，466 TB / 657 TB pgs：1.916％pgs无效 203997294/1577308005对象降级（12.933％） 1314118857/1577308005物品放错地图（83.314％） 155 active + undersized + degraded + remapped + backfill_wait 140 active + remapped + backfill_wait 114活动+小型+降级+重新映射 63 active + recovery_wait + degraded + remapped 30活动+清洁+重新映射 10创建+不完整 9 active + recovery_wait + undersized + degraded + remapped 1个活跃+小型+降级+重新映射+回填

IO：客户端：291 kB / s rd，0 B / s wr，14 op / s rd，16 op / s wr 恢复：6309 kB / s，2个对象/ s

ceph健康细节

HEALTH_WARN 1314114780/1577303100错位的对象（83.314％）;数据可用性降低：10 pgs不活跃，10 pgs不完整;降级数据冗余：203992956/1577303100对象降级（12.933％），492 pgs不洁，342 pgs降级，279 pgs缩小 OBJECT_MISPLACED 1314114780/1577303100错位的对象（83.314％） PG_AVAILABILITY降低数据可用性：10 pgs不活跃，10 pgs不完整 PG 15.0 +创建不完整的，从12作用[1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]（减少池测试器MIN_SIZE可能有助于;搜索ceph.com/docs为＆＃39;不完整＆＃39;） PG 15.1 +创建不完整的，从12作用[1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]（减少池测试器MIN_SIZE可能有助于;搜索ceph.com/docs为＆＃39;不完整＆＃39;） PG 15.2是+创建不完整的，从12作用[1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]（减少池测试器MIN_SIZE可能有助于;搜索ceph.com/docs为＆＃39;不完整＆＃39;） PG 15.3是+创建不完整的，从12作用[1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]（减少池测试器MIN_SIZE可能有助于;搜索ceph.com/docs为＆＃39;不完整＆＃39;） PG 15.4是+创建不完整的，从12作用[1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]（减少池测试器MIN_SIZE可能有助于;搜索ceph.com/docs为＆＃39;不完整＆＃39;） PG 15.5 +创建不完整的，从12作用[1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]（减少池测试器MIN_SIZE可能有助于;搜索ceph.com/docs为＆＃39;不完整＆＃39;） PG 15.6是+创建不完整的，从12作用[1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]（减少池测试器MIN_SIZE可能有助于;搜索ceph.com/docs为＆＃39;不完整＆＃39;） PG 15.7是+创建不完整的，从12作用[1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]（减少池测试器MIN_SIZE可能有助于;搜索ceph.com/docs为＆＃39;不完整＆＃39;） PG 15.8是+创建不完整的，从12作用[1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]（减少池测试器MIN_SIZE可能有助于;搜索ceph.com/docs为＆＃39;不完整＆＃39;） PG 15.9是+创建不完整的，从12作用[1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]（减少池测试器MIN_SIZE可能有助于;搜索ceph.com/docs为＆＃39;不完整＆＃39;） PG_DEGRADED降级数据冗余：203992956/1577303100对象降级（12.933％），492 pgs不洁净，342 pgs降级，279 pgs缩小 pg 1.e2被卡住不洁，为9096318.249662，当前状态有效+超小+退化+重新映射，最后代理[1,2147483647,2147483647,5,40,8,28,47,13,12,29,10,23,2147483647 ，35] pg 1.e3被卡在11585.111340，当前状态有效+低于+降级+重新映射，最后一次[1,3,2147483647,47,11,21,32,46,28,23,2147483647,13,2147483647,19 ，26] pg 1.e4卡在11588.194871，当前状态有效+尺寸不足+降级+重映射+回填_等，最后作用[26,6,23,46,18,30,2147483647,25,38,29,13,45,9] ，35.20] pg 1.e5被卡住尺寸为11588.374341，当前状态有效+尺寸不足+退化+重新映射+反向填充_等，最后代理[14,40,2147483647,22,18,17,29,31,28,43,34,19,33 ，15,32] pg 1.e6被锁定为11584.602668，当前状态有效+超出+降级+重新映射，最后一次[1,38,40,2147483647,46,14,2147483647,23,7,44,15,39,8,21] ，28] pg 1.e7被锁定为11578.574380，当前状态有效+超出+降级+重新映射，最后一次[1,13,2147483647,37,29,33,18,2147483647,9,38,23,16,42,2147483647 ，3] pg 1.e8被压缩为11571.385848，当前状态有效+超小+退化+重新映射，最后一次[1,23,2147483647,7,36,26,6,39,38,2147483647,29,11,15,2147483647 ，19] pg 1.e9被锁定为11588.254477，当前状态有效+超小+降级+重映射+回填_等，最后一次行动[13,44,16,11,9,2147483647,32,37,45,17,20,21,40 ，46,2147483647] pg 1.ea被卡住11580.242417，当前状态有效+超小+降级+重映射+回填_等，最后一次[25,19,30,33,2147483647,44,20,39,17,45,43,24,2147483647 ，10,21] pg 1.eb卡在11588.329063，当前状态有效+尺寸不足+降级+重新映射+回填_等，最后一次[29,39,2147483647,2147483647,40,18,4,33,24,38,32,36,15] ，47,12] pg 1.ec被锁定为11587.781353，当前状态有效+超小+降级+重映射+回填_等，最后一次[35,37,42,11,2147483647,2147483647,30,15,39,44,43,46,17 ，4,7]

[...]

pg 3.fa is stuck unclean for 11649.009911, current state active+remapped+backfill_wait, last acting [36,15,42,4,21,14,34,16,17,8,39,3,2,7,19]
pg 3.fb is stuck undersized for 11580.419670, current state active+undersized+degraded+remapped, last acting [1,7,16,9,19,39,2147483647,33,26,23,20,8,35,40,29]
pg 3.fd is stuck unclean for 11649.040651, current state active+remapped+backfill_wait, last acting [17,21,8,26,15,42,46,27,7,39,14,35,4,29,25]
pg 3.fe is active+recovery_wait+degraded+remapped, acting [22,8,45,18,10,46,33,36,16,7,17,34,43,1,23]
pg 3.ff is stuck unclean for 11649.056722, current state active+remapped+backfill_wait, last acting [33,46,47,17,37,4,40,34,28,43,3,44,13,2,11]

Answer 1

随着宝石到光亮的迁移群集大小增加，我遇到了同样的问题。在这个过程中的某个地方，挤压图权重已经被损坏（不是通过＆＃34; reweight＆＃34;命令定位的那个）并被归零。这导致我的集群做出奇怪的放置决策（溢出其中一个pgs太多的节点），并且无法分配新的pgs（至少在这个节点不负责时）。

当我们编辑crushmap（解压缩，反编译，手动编译，重新编译，推送）并重新启动我们的集群时，问题就解决了。我们只是手动重置所有设备的权重为1.0（因为我们所有的磁盘都是相同的）。

重新启动后，可以分配新的pgs / pool，并且分配行为似乎恢复正常（重新平衡事情）。

希望有所帮助，

Soltiz。

在恢复上下文中，新的擦除PG保持不活动+不完整

我尝试了什么：

完整上下文

1 个答案: