如果我使用S3而不是HDFS,Namenode仍然是必需的吗?

时间:2017-11-06 07:13:47

标签: hadoop amazon-s3 hdfs namenode

最近我用S3在Object Store上设置我的Hadoop集群,所有数据文件都存储在S3而不是HDFS中,我成功运行了spark和MP over S3,所以我想知道我的namenode是否仍然是必要的,如果是的话,当我在S3上运行hadoop应用程序时,我的namenode做了什么?感谢。

1 个答案:

答案 0 :(得分:2)

不,只要您有办法处理S3缺乏运输工作提交者所需的一致性这一事实。每隔一段时间,如果S3的列表不够一致,您的结果将无效,您甚至不会注意到

Spark on AWS的不同供应商以自己的方式解决了这个问题。如果您使用的是ASF spark,则没有任何捆绑可以执行此操作。

https://www.youtube.com/watch?v=BgHrff5yAQo