Question

我创建了我的第一个小型CE / CEPH开发集群，该集群由6个节点组成：admin，monitor，OSD1，OSD2，manager和client。它们都是在小型虚拟环境中创建的，意味着：每个服务器都有1vCPU，512mb ram，2vNIC，Centos 7。

一切正常，直到我开始测试RBD设备。 RBD设备映射到ceph群集中的客户端主机，然后通过iscsi呈现给我的PC（Windows 10），该PC也是该ceph群集在其上运行的虚拟环境的主机。

现在，当我在原始iscsi lun上创建NTFS分区并通过一些随机时间并传输文件开始复制文件（.pdf，.avi，.exe等）cef并进行一些性能测试时-停止响应任何命令，复制过程也停止了，几分钟后它再次开始响应。

我收集了一些日志，但不知道发生了什么以及为什么。 osd或监视节点上可能没有足够的资源吗？

2019-01-04 14:37:50.163206 mon.ceph-mon [INF] osd.0 failed (root=default,host=ceph-osd1) (2 reporters from different host after 124.464921 >= grace 20.000000)
2019-01-04 14:37:50.327139 mon.ceph-mon [WRN] Health check failed: 4 slow ops, oldest one blocked for 57 sec, osd.3 has slow ops (SLOW_OPS)
2019-01-04 14:37:50.401706 mon.ceph-mon [INF] osd.2 failed (root=default,host=ceph-osd1) (2 reporters from different host after 128.587813 >= grace 20.000000)
2019-01-04 14:37:50.447750 mon.ceph-mon [WRN] Health check failed: 2 osds down (OSD_DOWN)
2019-01-04 14:37:50.447841 mon.ceph-mon [WRN] Health check failed: 1 host (2 osds) down (OSD_HOST_DOWN)

All Ceph cluster logs

在rbd上的I / O测试期间重置了Ceph集群OSD

0 个答案: