应用错误收集

Hadoop中分布式缓存的生命周期

时间：2010-12-19 15:57:17

标签： hadoop amazon-web-services elastic-map-reduce

在Hadoop流媒体作业中使用分布式缓存机制将文件传输到节点时，系统是否在作业完成后删除这些文件？如果它们被删除，我认为它们是，有没有办法让缓存保留多个工作？这在Amazon的Elastic Mapreduce上的工作方式是否相同？

2 个答案:

答案 0 :(得分：5)

我正在挖掘源代码，看起来文件被TrackerDistributedCacheManager删除大约每分钟一次，当他们的引用计数降到零时。 TaskRunner在任务结束时显式释放其所有文件。也许你应该编辑TaskRunner不要这样做，并自己通过更明确的方式控制缓存？

答案 1 :(得分：2)

我cross posted this question at the AWS forum并建议使用hadoop fs -get以跨作业的方式传输文件。