最近我用S3在Object Store上设置我的Hadoop集群,所有数据文件都存储在S3而不是HDFS中,我成功运行了spark和MP over S3,所以我想知道我的namenode是否仍然是必要的,如果是的话,当我在S3上运行hadoop应用程序时,我的namenode做了什么?感谢。
答案 0 :(得分:2)
不,只要您有办法处理S3缺乏运输工作提交者所需的一致性这一事实。每隔一段时间,如果S3的列表不够一致,您的结果将无效,您甚至不会注意到。
Spark on AWS的不同供应商以自己的方式解决了这个问题。如果您使用的是ASF spark,则没有任何捆绑可以执行此操作。