Spark Standalone模式:更改HDFS输出的复制因子

时间:2013-06-21 08:51:38

标签: scala hdfs apache-spark

在我的hdfs-site.xml中,我将复制因子配置为1。

但是,在将结果写入hdfs:

someMap.saveAsTextFile("hdfs://HOST:PORT/out")

结果会自动复制3倍,覆盖我自己的复制因子。为了节省一些空间,我希望我的输出的复制因子为1。

如何告诉HDFS使用复制因子1?

1 个答案:

答案 0 :(得分:7)

我认为spark正在加载一个复制设置为3的default hadoop config。要覆盖它,您需要设置一个类似于您可以找到的其他火花配置的环境变量或系统属性here

您可能需要以下内容:

System.setProperty("spark.hadoop.dfs.replication", "1")

或在您的jvm启动中:

 -Dspark.hadoop.dfs.replication=1

希望像这样的应该工作......