具有/不具有HDFS的Alluxio

时间:2018-08-30 13:49:13

标签: hadoop hdfs distributed-filesystem alluxio

我有一个使用HDFS作为存储不足的分布式文件系统的群集,但是我刚刚读到了关于 alluxio 的快速而灵活的信息。因此,我的问题是:我应该将Alluxio与HDFS一起使用还是将Alluxio替代HDFS? (我在他们的网站上看到用于存储文件系统的共享存储可以是网络文件系统(NFS)。因此,我认为不需要HDFS。如果我输入有误,请纠正我。)

在哪种模式下性能更好:带有Alluxio或Alluxio stanalone的HDFS(我的意思是“独立”一词将在集群中单独使用,而不是在本地使用)。

1 个答案:

答案 0 :(得分:6)

Alluxio维护者的答复。

首先,Alluxio 不是替代HDFS。相反,它是在其他分布式/云存储系统(包括HDFS,S3,Azure对象存储和其他可能的选择)之上的新抽象层。就您而言,如果您的数据已经在HDFS中,则可能仍将HDFS保留为Alluxio的持久数据层。

用户将Alluxio放入图片中并看到明显的好处的典型方案包括:

  • 您的物理数据不在您的计算机中。例如,您的大数据引擎正在从S3或其他对象存储中读取数据。在这种情况下,通过将Alluxio与计算节点一起部署,可以使Alluxio用作文件系统级别的缓存,从而避免跨网络重复获取数据。参见http://www.alluxio.org/overview/remote-data-acceleration
  • 您正在管理多个存储,并希望公开一个数据访问层以简化管理。例如,可以将多个S3 /存储桶“装载”到一个Alluxio部署中,以便它们在同一名称空间下显示为不同的目录。参见http://www.alluxio.org/overview/storage-unification

关于您的原始性能问题。答案是,这取决于。如果您的HDFS远离计算,则可以期望获得良好的性能提升。我还看到HDFS出现瓶颈的情况,Alluxio可能还有助于减少负载并为某些关键任务工作提供良好的SLA。