适用于商品linux存储场的最佳分布式文件系统

时间:2008-11-06 15:43:54

标签: linux filesystems distributed-computing distributed-system

我有很多备用的intel linux服务器(数百个),并希望在Web托管和文件共享环境中将它们用于分布式文件系统。这不适用于HPC应用程序,因此高性能并不重要。主要要求是高可用性,如果一台服务器脱机,存储在其硬盘上的数据仍可从其他节点获得。它必须通过TCP / IP运行并提供标准的POSIX文件权限。

我看过以下内容:

  • Lustre(http://wiki.lustre.org/index.php?title=Main_Page):真的关闭,但它不为节点上的数据提供冗余。您必须使用RAID或DRBD创建数据HA。由Sun和Open Source提供支持,因此它应该存在一段时间

  • gfarm(http://datafarm.apgrid.org/):看起来它提供了冗余,但代价是复杂性和可维护性。不像Lustre那样得到支持。

有没有人对这些或任何其他可能有效的系统有任何经验?

7 个答案:

答案 0 :(得分:21)

同时检查GlusterFS

编辑(2012年8月): Ceph终于做好了准备。最近,作者成立了Inktank,一家独立公司,为其出售商业支持。根据一些介绍,可安装的POSIX兼容文件系统是最上层,尚未真正测试,但较低层现在正在生产中使用一段时间。

有趣的部分是RADOS层,它提供了一个基于对象的存储,同时通过librados库(可用于多种语言)和Amazon S3兼容的RESP API进行“本机”访问。任何一个都足以使大量存储添加到Web服务。

This video是对哲学,架构,能力和现状的良好描述。

答案 1 :(得分:5)

在我看来,Linux的最佳文件系统是MooseFS,它很新,但我有机会将它与Ceph和Lustre进行比较,我确信MooseFS是最好的。

答案 2 :(得分:4)

Gluster目前正在接受很多新闻:

http://www.gluster.org/

答案 3 :(得分:2)

如果没有人强迫您使用它,我也强烈推荐使用除Lustre之外的任何东西。从我从别人那里听到的以及在很长一段时间内给自己做噩梦的事实来看,Lustre在各种情况下都很容易崩溃。如果系统中只有一个客户端发生故障,它会将自己置于无限的do_nothing_loop模式,同时保持一些重要的全局锁定 - 所以下次另一个客户端尝试访问相同的信息时,它也会挂起。因此,您经常会重新启动整个群集,我想这是您通常会尝试避免的事情;)

像FhGFS(http://www.fhgfs.com)这样的现代并行文件系统在这里更加强大,并且允许您在同一台机器上运行服务器和客户端组件等优点(尽管内置HA功能)仍然在开发中,正如他们团队中的某个人告诉我的那样,但他们的实施将从我所听到的内容中变得非常棒。

答案 4 :(得分:1)

Lustre一直在为我们工作。它并不完美,但它是我们尝试过的唯一没有超载负载的东西。我们仍然不时获得LBUGS并且处理100TB +文件系统绝非易事,但Lustre系统已经起作用并且提高了性能和可用性。

答案 5 :(得分:0)

Ceph看起来是一个很有前途的新进入竞技场。该网站声称它尚未准备好用于生产用途。

答案 6 :(得分:0)

我阅读了很多关于分布式文件系统的内容,我认为FhGFS是最好的。

http://www.fhgfs.com/

值得一试。在以下位置查看更多相关信息:

http://www.fhgfs.com/wiki/