我们目前运行的商品群集支持几PB 数据。群集中的每个节点都有4个驱动器,当前安装为/ 0 通过/ 3。我们一直在研究管理这种方法的替代方案 存储,Ceph是一种可能性,iRODS是另一种可能性。对于 保存目的,我们希望每个文件作为一个整体存在 每个驱动器一块(而不是跨多个驱动器划分)。 看来这是Ceph的默认设置。
现在,我们一直很方便地运行分布式作业 例如,SSH编译一个包含所有文件的校验和列表 簇:
dsh -Mca 'find /{0..3}/items -name \*.warc.gz | xargs md5sum >/tmp/$HOSTNAME.md5sum'
这很好地允许每个节点使用处理自己的文件 本地CPU。
在Ceph管理存储的情况下,这种情况是否仍然可行?
提前感谢您的任何反馈。