群集文件系统还是网络复制?

时间:2016-02-11 17:09:22

标签: server filesystems storage cluster-computing distributed-computing

我有一个由5个小型服务器组成的集群(Raspberry Pi),每个都有一个8GB的USB驱动器,仅用于试验集群等。
它们通过LAN连接到交换机,而不是连接到互联网 我需要的是一种在每台服务器上拥有相同文件的方法,正如标题所说,备选方案是:
。在5台服务器上复制相同的数据,只有大约8GB的空间5次 。在网络上有一个“JBOD”,总共~40GB 任何上述解决方案的任何建议都表示赞赏 存储的文件绝不重要,因此不需要可靠性/可用性 祝你有美好的一天。

1 个答案:

答案 0 :(得分:0)

您需要问问自己计划使用哪种分布式计算的问题。如果您正在查看流行的MapReduce框架中的数据本地计算,则可能需要安装其中一个框架。它们基于分布式文件系统并与之耦合。所以基本上你有一个更高级别的文件系统,你可以通过API访问。您写入这些文件系统的数据会在群集中分开。在MapReduce处理范例中,地图阶段可以利用此数据位置,因为它仅处理/加载来自本地块的数据。

如果您对HPC /群集方法更感兴趣,您可能会研究基于MPI的系统。在这些系统中,您的操作水平稍低。在这种情况下可以很好地工作的是,您使用NFS和OverlayFS的组合来使数据可用于所有节点。这可以这样工作,你的每个Pi都通过NFS共享它的USB。所有其他Pi都安装了所有其他Pi的文件系统。因此,在Pi-0上,您最终会安装到Pi-1到4等的共享。使用OverlayFS,您可以将各个共享中的数据显示在一个文件夹中。

如果您的任何MPI工作人员需要读取文件,他们基本上都可以从明确定义的路径中读取数据,并且必要时将通过网络透明地提取数据。

使用NFS被周围的许多年龄和许多性能改进狂它和它' S通常小的开销这甚至可以是一个相当高性能溶液

让我们了解您计划在这个令人兴奋的项目!