我创建了我的第一个小型CE / CEPH开发集群,该集群由6个节点组成:admin,monitor,OSD1,OSD2,manager和client。它们都是在小型虚拟环境中创建的,意味着:每个服务器都有1vCPU,512mb ram,2vNIC,Centos 7。
一切正常,直到我开始测试RBD设备。 RBD设备映射到ceph群集中的客户端主机,然后通过iscsi呈现给我的PC(Windows 10),该PC也是该ceph群集在其上运行的虚拟环境的主机。
现在,当我在原始iscsi lun上创建NTFS分区并通过一些随机时间并传输文件开始复制文件(.pdf,.avi,.exe等)cef并进行一些性能测试时-停止响应任何命令,复制过程也停止了,几分钟后它再次开始响应。
我收集了一些日志,但不知道发生了什么以及为什么。 osd或监视节点上可能没有足够的资源吗?
2019-01-04 14:37:50.163206 mon.ceph-mon [INF] osd.0 failed (root=default,host=ceph-osd1) (2 reporters from different host after 124.464921 >= grace 20.000000)
2019-01-04 14:37:50.327139 mon.ceph-mon [WRN] Health check failed: 4 slow ops, oldest one blocked for 57 sec, osd.3 has slow ops (SLOW_OPS)
2019-01-04 14:37:50.401706 mon.ceph-mon [INF] osd.2 failed (root=default,host=ceph-osd1) (2 reporters from different host after 128.587813 >= grace 20.000000)
2019-01-04 14:37:50.447750 mon.ceph-mon [WRN] Health check failed: 2 osds down (OSD_DOWN)
2019-01-04 14:37:50.447841 mon.ceph-mon [WRN] Health check failed: 1 host (2 osds) down (OSD_HOST_DOWN)