仅为Hadoop作业输出关闭复制

时间:2011-11-08 20:16:27

标签: hadoop

是否有办法将特定MapReduce作业输出的复制因子设置为与群集的其余部分(例如1)不同?我希望我的主要数据集是3x副本(因为它是当前的),但是我的一些作业的输出很快就从集群中移出并最终被抛出,因此不需要复制,我可以使用空间

我可以使用setrep,但我想我只能在事后才这样做。

1 个答案:

答案 0 :(得分:7)

上传文件时,可以通过传递

覆盖DFS默认复制因子
-D dfs.replication=1

当您调用作业时,这也应该有效。