我目前正在寻找一个好的分布式文件系统。
它应该:
我认为以下是四位最有希望的候选人:
文件系统主要用于媒体文件(图像和音频)。有非常小和中等大小的文件(1 KB - 10 MB)。文件数量应该在几百万左右。
是否有关于性能, CPU负载,内存消耗和可伸缩性的基准测试?您使用这些或其他分布式文件系统的经历是什么?
答案 0 :(得分:27)
我不确定你的清单是否正确。这取决于您对文件系统的意思。
如果您指的是可以在操作系统中安装并且可以被任何使用POSIX调用读取和写入文件的应用程序使用的文件系统,那么GridFS并不真正符合条件。这就是MongoDB如何存储BSON格式的对象。它是Object system而不是文件系统。
a project有GridFS mountable,但它有点奇怪,因为尽管允许路径,但GridFS没有像分层目录那样的概念。另外,我不确定如何在gridfs-fuse上进行分布式写入。
GlusterFS和Ceph是可比较的,是可分发的,可复制的可安装文件系统。你可以read a comparison between the two here(和followup update of comparison),但请记住,基准测试是由有点偏见的人完成的。您还可以观看this debate on the topic。
至于HekaFS,它是为云计算设置的GlusterFS,增加了加密和多租户以及管理UI。
答案 1 :(得分:13)
在 Ceph 工作11个月后,我得出的结论是它完全糟透了所以我建议避免它。我尝试了 XtreemFS , RozoFS 和 QuantcastFS ,但发现它们还不够好。
我全心全意地推荐 LizardFS ,这是现在专有的 MooseFS 的分支。 LizardFS 具有数据完整性,监控性和卓越的性能,只有很少的依赖关系。
2019更新:情况发生了变化, LizardFS 不再受到维护。
MooseFS比以往任何时候都强大,并且免于大多数 LizardFS 错误。 MooseFS 维护得很好,比LizardFS快。
答案 2 :(得分:2)
OrangeFS,有人吗?
我正在寻找HPC DFS并在此处发现此讨论: http://forums.gentoo.org/viewtopic-t-901744-start-0.html
大量良好的数据和比较:)
经过一番讨论,OP决定使用OrangeFS,引用: “OrangeFS。它不支持配额也不支持文件锁(尽管所有的i / o操作都是原子的,而且这个 方式一致性保持没有锁)。但它有效,并且运行良好且稳定。此外,这是 不是一般的文件存储导向系统,而是HPC专用系统,针对并行I / O包括 ROMIO支持。对条纹数据分布进行所有测试。 a)没有配额 - 地狱配额。无论如何我放弃了他们,甚至glusterfs支持不常见 基于uid / gid的配额,但目录大小限制,更像LVM的工作原理。 b)支持多个活动元数据服务器并且稳定。与专用元数据相比 存储(单节点)这使得小文件的性能提高了50%,并且没有显着差异 大的。 c)在大数据块上的出色性能(dd bs = 1M)。它受到本地硬盘总和的限制 (不要忘记每个节点也作为数据服务器参与)速度和可用网络带宽。 这种负载上的CPU消耗是不错的,大约是客户端节点上单核的50%左右 每个其他数据服务器节点的百分比为10%。 d)大型小文件的公平性能。为了测试我解开了linux内核3.1。花了5分钟 在OrangeFS上(带有调整参数)和几乎2分钟的NFSv4(也可以调整)进行比较。 CPU负载大约是客户端单核的50%(当然,它实际上是在核心之间分配) 每个节点上几个百分点。 e)支持ROMIO MPI I / O API。对于允许使用的MPI感知应用程序,这是一个甜蜜的美味 PVFS2 / OrangeFS并行输入输出功能直接来自应用程序。 f)不支持特殊文件(套接字,fifo,块设备)。因此不能安全地用作/ home和我使用 用于该任务的NFSv4为用户提供配额限制的小型家庭空间。虽然分布最多 文件系统无论如何都不支持特殊文件。 “
答案 3 :(得分:1)
我不知道您发布的其他系统,但我已经对本地存储上的3个PHP CMS / Frameworks与GlusterFS进行了比较,看看它在实际测试中是否比原始基准更好。可悲的是没有。
http://blog.lavoie.sl/2013/12/glusterfs-performance-on-different-frameworks.html