应用错误收集

如果我使用S3而不是HDFS，Namenode仍然是必需的吗？

时间：2017-11-06 07:13:47

标签： hadoop amazon-s3 hdfs namenode

最近我用S3在Object Store上设置我的Hadoop集群，所有数据文件都存储在S3而不是HDFS中，我成功运行了spark和MP over S3，所以我想知道我的namenode是否仍然是必要的，如果是的话，当我在S3上运行hadoop应用程序时，我的namenode做了什么？感谢。

1 个答案:

答案 0 :(得分：2)

不，只要您有办法处理S3缺乏运输工作提交者所需的一致性这一事实。每隔一段时间，如果S3的列表不够一致，您的结果将无效，您甚至不会注意到。

Spark on AWS的不同供应商以自己的方式解决了这个问题。如果您使用的是ASF spark，则没有任何捆绑可以执行此操作。

https://www.youtube.com/watch?v=BgHrff5yAQo