我有一个使用HDFS作为存储不足的分布式文件系统的群集,但是我刚刚读到了关于 alluxio 的快速而灵活的信息。因此,我的问题是:我应该将Alluxio与HDFS一起使用还是将Alluxio替代HDFS? (我在他们的网站上看到用于存储文件系统的共享存储可以是网络文件系统(NFS)。因此,我认为不需要HDFS。如果我输入有误,请纠正我。)
在哪种模式下性能更好:带有Alluxio或Alluxio stanalone的HDFS(我的意思是“独立”一词将在集群中单独使用,而不是在本地使用)。
答案 0 :(得分:6)
Alluxio维护者的答复。
首先,Alluxio 不是替代HDFS。相反,它是在其他分布式/云存储系统(包括HDFS,S3,Azure对象存储和其他可能的选择)之上的新抽象层。就您而言,如果您的数据已经在HDFS中,则可能仍将HDFS保留为Alluxio的持久数据层。
用户将Alluxio放入图片中并看到明显的好处的典型方案包括:
关于您的原始性能问题。答案是,这取决于。如果您的HDFS远离计算,则可以期望获得良好的性能提升。我还看到HDFS出现瓶颈的情况,Alluxio可能还有助于减少负载并为某些关键任务工作提供良好的SLA。