DistributedCache是​​否在每个作业后删除缓存的文件?

时间:2014-02-05 21:22:57

标签: hadoop mapreduce

DistributedCache州的文档:

  

它的效率源于这样一个事实,即每个作业只复制一次文件,并且能够缓存未在存档上存档的档案。

当它说“可以缓存未在存档上存档的档案”时,它意味着什么?每个作业后都删除了缓存文件吗?我希望能够在不同的数据集上运行相同的工作数百次而不会增加在每个作业之前重新分发DistributedCache文件的开销。这可能吗?

1 个答案:

答案 0 :(得分:2)

Hadoop会保留有关使用DistributedCache中的文件的任务数的引用计数。如果计数降至0,则标记为删除的文件。因此,在作业结束时,DistributedCache中的文件将被清除,否则它们将继续在作业上堆积节点。