检查点流数据到HDFS clulster

时间:2018-03-26 14:40:09

标签: hdfs spark-streaming spark-checkpoint

我有一个HDFS集群,它有两个NameNode。 通常,如果使用HDFS客户端来保存数据,则如果其中一个出现故障,则需要使用哪个NameNode。

但是在Spark中,对于检查点,API是:StreamingCOntext.checkpoint(“hdfs://100.90.100.11:9000 / sparkData”)。

在这里我只能指定一个NameNode,如果这个名称发生故障,Spark就没有itelligence可以切换到第二个。

有人可以帮我吗?

有没有办法,如果我将这个XML放在类路径中,Spark可以理解“hdfs-site.xml”(其中包含两个名称节点的信息)。

1 个答案:

答案 0 :(得分:0)

好的,我找到了答案。您可以使用以下语法添加core-site.xml,hdfs-site.xml等资源:

SparkContext.hadoopConfiguration()addResource(ABC.class.getClassLoader()的getResource( “核心-site.xml中”)。)。         。SparkContext.hadoopConfiguration()addResource(ABC.class.getClassLoader()的getResource( “HDFS-site.xml中”));